Curso intermedio de
PROBABILIDAD
Luis Rincón
Departamento de Matemáticas
Facultad de Ciencias UNAM
Circuito Exterior de CU
04510 México DF
Versión: Abril 2007
Una versión actualizada del presente texto se encuentra disponible en formato
electrónico en la dirección http://www.matematicas.unam.mx/lars
ii
Contenido
1. Espacios de probabilidad 1
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 1
1.2. σ-álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Medidas de probabilidad . . . . . . . . . . . . . . . . . . . . . 20
1.4. Independencia de eventos . . . . . . . . . . . . . . . . . . . . 33
1.5. Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 37
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2. Variables aleatorias 57
2.1. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . 67
2.3. Tipos de variables aleatorias . . . . . . . . . . . . . . . . . . . 73
2.4. Integral de Riemann-Stieltjes . . . . . . . . . . . . . . . . . . 80
2.5. Caracterı́sticas numéricas . . . . . . . . . . . . . . . . . . . . 83
2.6. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . 93
2.7. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . 100
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3. Vectores aleatorios 141
3.1. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . 141
3.2. Distribución conjunta . . . . . . . . . . . . . . . . . . . . . . 143
3.3. Densidad conjunta . . . . . . . . . . . . . . . . . . . . . . . . 148
3.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . 154
3.5. Distribución condicional . . . . . . . . . . . . . . . . . . . . . 158
iii
3.6. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.7. Esperanza de una función de un vector aleatorio . . . . . . . 165
3.8. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
3.9. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . 171
3.10. Esperanza y varianza de un vector aleatorio . . . . . . . . . . 176
3.11. Distribuciones multivariadas discretas . . . . . . . . . . . . . 178
3.12. Distribuciones multivariadas continuas . . . . . . . . . . . . . 180
3.13. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4. Esperanza condicional 209
4.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . 209
4.2. Varianza condicional . . . . . . . . . . . . . . . . . . . . . . . 215
4.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
5. Transformaciones 221
5.1. Transformación de una variable aleatoria . . . . . . . . . . . . 221
5.2. Transformación de un vector aleatorio . . . . . . . . . . . . . 227
5.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
6. Dist. muestrales y estadı́sticas de orden 251
6.1. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . 253
6.2. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 261
6.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7. Convergencia 277
7.1. Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . 277
7.2. Relaciones entre los tipos de convergencia . . . . . . . . . . . 285
7.3. Dos resultados importantes de convergencia . . . . . . . . . . 291
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
8. Funciones generadoras 299
8.1. Función generadora de probabilidad . . . . . . . . . . . . . . 299
8.2. Función generadora de momentos . . . . . . . . . . . . . . . . 304
8.3. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . 311
8.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324
iv
9. Dos teoremas lı́mite 335
9.1. Algunas desigualdades . . . . . . . . . . . . . . . . . . . . . . 335
9.2. Ley de los grandes números . . . . . . . . . . . . . . . . . . . 340
9.3. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . . . 344
9.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
A. Distribuciones de probabilidad 351
B. Conceptos y resultados varios 359
v
vi
Prólogo
El presente texto está dirigido a estudiantes de mitad de carrera de las
licenciaturas de matemáticas, actuarı́a, y áreas afines. Contiene el material
básico para un segundo curso de probabilidad, y tiene como origen las notas
de clase del curso semestral de Probabilidad II, que he impartido durante
los últimos años en la Facultad de Ciencias de la UNAM.
El énfasis de este segundo curso se centra en la formalización de algunos
conceptos estudiados en un primer curso de probabilidad, y en el estudio
de vectores aleatorios y sus varios conceptos relacionados. El lector puede
comprobar que se hace poco énfasis en las aplicaciones, y que la exposición
cubre principalmente el desarrollo matemático. El objetivo es que después
de este curso, el estudiante pueda continuar con facilidad con un curso de
estadı́stica matemática, de procesos estocásticos, o tal vez un curso avan-
zado de probabilidad o de teorı́a de la medida, teniendo como elementos
básicos los conceptos teóricos aquı́ desarrollados. En particular se incluye
un capı́tulo sobre esperanza condicional, cuyo uso y aplicación es cada vez
más frecuente. También se incluye un capı́tulo sobre distribuciones mues-
trales y estadı́sticas de orden, con aplicaciones inmediatas en temas de la
estadı́stica matemática.
Al final de cada capı́tiulo el lector encontrará una lista de ejercicios separa-
dos por temas. La mayorı́a de estos ejercicios son de tipo mecánico, algunos
de ellos son muy sencillos de modo que el término ejercicios me parece
justo y adecuado. Pocos de estos ejercicios son originales, la mayor parte de
vii
ellos son modificaciones de ejemplos o resultados clásicos que se encuentran
en la larga literatura existente. La intención de contar con este material es
la de crear confianza y soltura por parte del alumno en el manejo de los
conceptos y notación involucrados. El número de ejercicios excede lo que
normalmente puede realizarse en un semestre, y el objetivo que siempre
tuve en mente estos años fue el tener un número suficiente de ellos para
presentar algunos en clase, dejar otros para trabajo en casa, y asignar algu-
nos otros para preguntas de examen, usando material ligeramente distinto
cada semestre para evitar repeticiones. Durante la exposición de los temas
el lector encontrará también algunos otros ejercicios propuestos y algunos
ejemplos resueltos.
La presentación del material mantiene la estructura de las notas de clase,
y creo que será particularmente útil al estudiante con poco tiempo para
leer párrafos completos, y quien sólo busca una definición, un resultado, un
ejemplo, un ejercicio, o tal vez orientación breve acerca de un concepto. En
este sentido, el libro contiene tablas a manera de resumen, y los enunciados
estn enmarcados para su fácil localización. También he intentado que la no-
tación fuera lo más simple y mı́nima posible. Personalmente me gustan los
libros con imágenes y diagramas, y he buscado plasmar ese gusto en este
texto. Este material fue escrito en LATEX, y las gráficas fueron elaboradas
usando el paquete pstricks, lo cual ha sido realmente un placer. Al final
del texto aparece una lista de referencias que me permito sugerir al lector
consultar para profundizar y a veces precisar en determinados temas. Algu-
nos de estos textos no han sido mencionados explı́citamente pero aparecen
en la lista por que en algún momento he obtenido inspiración de ellos.
Agradezco sinceramente a todas aquellas personas, alumnos y profesores,
quienes a través de sus comentarios y sugerencias, han contribuido al me-
joramiento de este texto. Cualquier corrección o comentario acerca de este
trabajo será muy bien recibido en el correo electrónico que aparece abajo.
Es mi intención mantener en el futuro, hasta donde me sea posible, una
versión electrónica actualizada, corregida y gratuita del presente texto. La
página web donde puede obtenerse es
viii
http://www.matematicas.unam.mx/lars
Por último, me parece importante mencionar que este texto ha sido posible,
en gran medida, al excelente ambiente de trabajo y de libertad académica
que he tenido la fortuna de encontrar en el Departamento de Matemáticas
de la Facultad de Ciencias de la UNAM. Gracias a todos por su confianza
y apoyo.
Luis Rincón
Diciembre 2006
Ciudad Universitaria UNAM
[email protected]
ix
Capı́tulo 1
Espacios de probabilidad
La teorı́a de la probabilidad es la parte de las matemáticas que se encarga
del estudio de los fenómenos o experimentos aleatorios. Se entiende por
experimento aleatorio todo aquel experimento tal que cuando se le repite
bajo las mismas condiciones iniciales, el resultado que se obtiene no siempre
es el mismo. A menudo, y por muy diversas razones, es necesario aceptar
que no es posible predecir el resultado de un experimento particular aún
cuando se le haya efectuado con anterioridad varias veces bajo las mismas
condiciones iniciales, y en consecuencia se considera aleatorio. Bajo estas
circunstancias, la teorı́a de la probabilidad tiene el objetivo de modelar
matemáticamente cualquier experimento aleatorio de interés.
1.1. Espacios de probabilidad
El modelo matemático creado durante el primer tercio del siglo XX para
estudiar los experimentos aleatorios es el ası́ llamado espacio de probabili-
dad. Este modelo consiste de una terna ordenada, denotada usualmente por
(Ω, F , P ), en donde Ω es un conjunto arbitrario, F es una σ-álgebra de
subconjuntos de Ω, y P es una medida de probabilidad definida sobre F .
Explicamos a continuación brevemente cada uno de estos elementos.
1
2 1.1. Espacios de probabilidad
Espacio muestral. El conjunto Ω es llamado espacio muestral o espacio
muestra, y tiene como objetivo agrupar a todos los posibles resultados del
experimento aleatorio en cuestión. No es imprescindible darle esta interpre-
tación al conjunto Ω, y matemáticamente se le considera entonces como un
conjunto arbitrario.
σ-álgebra. Una clase o colección no vacı́a F de subconjuntos de Ω es
una σ-álgebra si es cerrada bajo las operaciones de tomar complementos
y uniones numerables. El término σ-álgebra se lee “sigma-álgebra”. A los
elementos de una σ-álgebra se les llama eventos , sucesos, o conjuntos me-
dibles. Debido a su uso extendido, se usa el término medible, aunque tal
vez lo correcto sea decir mensurable. En particular, un evento es simple o
elemental si consta de a lo más un elemento de Ω, y es compuesto cuando
consta de dos o más elementos de Ω.
Medida de probabilidad. Una función P definida sobre una σ-álgebra F
y con valores en el intervalo [0, 1] es una medida de probabilidad si P (Ω) = 1
y es σ-aditiva, es decir, si cumple que
∞
[ ∞
X
P( An ) = P (An ),
n=1 n=1
cuando A1 , A2 , . . . son elementos de F que cumplen con la condición de
ser ajenos dos a dos, esto es, Ai ∩ Aj = ∅ para valores de i y j distintos.
El número P (A) representa una forma de medir la posibilidad de observar
la ocurrencia del evento A, al efectuar una vez el experimento aleatorio.
Tenemos entonces formalmente la siguiente definición.
Definición. (Espacio de probabilidad). Un espacio de probabilidad
es una terna (Ω, F , P ), en donde Ω es un conjunto arbitrario, F es una
σ-álgebra de subconjuntos de Ω, y P es una medida de probabilidad
definida sobre F .
El objetivo es asociar un espacio de probabilidad al experimento aleatorio
de interés. No existen reglas establecidas para ello y además la posible asig-
nación no es única, pues dependiendo del interés del observador, se puede
Capı́tulo 1. Espacios de probabilidad 3
asociar un espacio de probabilidad u otro. En este primer capı́tulo se estu-
dian con más detalle los conceptos de σ-álgebra y medida de probabilidad.
Empecemos con el primero.
1.2. σ-álgebras
En esta sección se estudia el concepto de σ-álgebra y se define la mı́nima
σ-álgebra generada por una colección arbitraria. Recordemos nuevamente
la definición de esta estructura.
Definición. (σ-álgebra, espacio medible, evento). Una colección
F de subconjuntos de Ω es una σ-álgebra si cumple las siguientes con-
diciones:
1. Ω ∈ F .
2. Si A ∈ F , entonces Ac ∈ F .
∞
[
3. Si A1 , A2 , . . . ∈ F , entonces An ∈ F .
n=1
A la pareja (Ω, F ) se le llama espacio medible y a los elementos de F
se les llama eventos o conjuntos medibles.
En palabras, una σ-álgebra es una colección de subconjuntos de Ω que no
es vacı́a y que es cerrada bajo las operaciones de tomar complemento y
efectuar uniones infinitas numerables. En probabilidad elemental el con-
junto Ω denota el espacio muestral o conjunto de posibles resultados de
un experimento aleatorio, y los elementos de F representan eventos en el
experimento aleatorio. Una σ-álgebra es entonces una estructura que nos
permite agrupar ciertos subconjuntos de Ω de interés, aquellos a los cuales
se desea calcular su probabilidad, y esta estructura constituye el dominio de
definición de una medida de probabilidad. A menudo no pueden definirse
4 1.2. σ-álgebras
medidas de probabilidad sobre colecciones de subconjuntos más completas o
naturales, como podrı́a ser el conjunto potencia de Ω, la teorı́a de la medida
garantiza que por lo menos el concepto de medida de probabilidad, con los
axiomas mencionados antes, puede obtenerse sobre σ-álgebras, y por ello es
que se estudian estas estructuras. En general existen varias σ-álgebras que
pueden asociarse a un conjunto cualquiera no vacı́o Ω como se muestra a
continuación.
Ejercicio. Sea Ω un conjunto cualquiera no vacı́o. Demuestre que cada una de
las siguientes colecciones es una σ-álgebra de subconjuntos de Ω.
a) F1 = {∅, Ω}.
b) F2 = {∅, A, Ac , Ω}, en donde A ⊆ Ω.
c) F3 = 2Ω , conjunto potencia.
La σ-álgebra del primer inciso es la σ-álgebra más pequeña que podemos asociar a
un conjunto cualquiera Ω, y la σ-álgebra del último inciso es la más grande. ◦
Ejercicio. Sea Ω un conjunto no numerable. Demuestre que la colección F dada
por {A ⊆ Ω : A o Ac es finito o numerable} es una σ-álgebra. ◦
En la Figura 1.1 puede observarse una representación gráfica de una σ-
álgebra como una colección de subconjuntos de Ω.
Ejemplo. Sean A y B subconjuntos de Ω tales que A ⊆ B. La colección
F = {∅, A, B, Ac , B c , B − A, (B − A)c , Ω}
es una σ-álgebra de subconjuntos de Ω que contiene explı́citamente a los conjuntos
A y B. ¿Puede usted verificar tal afirmación con la ayuda de un diagrama de Venn?
◦
En la sección de ejercicios se pueden encontrar algunos otros ejemplos de
σ-álgebras. El uso de la letra F para denotar una σ-álgebra proviene del
Capı́tulo 1. Espacios de probabilidad 5
B C
A
E
D
Ω
Figura 1.1: Una σ-álgebra es una colección F = {A, B, C, D, E, . . .} de subcon-
juntos que no es vacı́a y es cerrada bajo complementos y uniones numerables.
nombre en inglés “field” que significa campo. A menudo se usa también
el término σ-campo en lugar de σ-álgebra. Observe con cuidado el uso y
significado de los sı́mbolos de contención y pertenencia: A ⊆ Ω y A ∈ F .
Demostraremos a continuación algunas otras propiedades generales de las
σ-álgebras.
Proposición. Sea F una σ-álgebra de subconjuntos de Ω. Entonces
1. ∅ ∈ F .
∞
\
2. Si A1 , A2 , . . . ∈ F , entonces An ∈ F .
n=1
3. Si A, B ∈ F , entonces A − B ∈ F , y A△B ∈ F .
Demostración.
1. Como Ω ∈ F y F es una colección cerrada bajo complementos, en-
tonces Ωc = ∅ ∈ F .
S
2. Si A1 , A2 , . . . ∈ F , entonces Ac1 , Ac2 , . . . ∈ F . Por lo tanto ∞ c
n=1 An ∈
F . Tomando complementos y usando las leyes de De Morgan se ob-
6 1.2. σ-álgebras
tiene el resultado.
3. Estas proposiciones se siguen de lo demostrado antes y de las defini-
ciones A − B = A ∩ B c , y A△B = (A − B) ∪ (B − A).
La proposición anterior establece entonces que las σ-álgebras son estruc-
turas también cerradas bajo las operaciones de diferencia e intersecciones
numerables. En la sección de ejercicios pueden encontrarse algunas otras de-
finiciones de σ-álgebra equivalentes a la que hemos enunciado, y que involu-
cran las operaciones de la proposición anterior. Una operación de particular
importancia es aquella en la que se intersectan dos σ-álgebras produciendo
una nueva σ-álgebra, este es el contenido del siguiente resultado.
Proposición. La intersección de dos σ-álgebras es una σ-álgebra.
Demostración. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. En-
tonces F1 ∩ F2 es aquella colección de subconjuntos de Ω cuyos elementos
pertenecen tanto a F1 como a F2 . Demostraremos que F1 ∩ F2 es una
σ-álgebra.
a) Como F1 y F2 son σ-álgebras, entonces Ω ∈ F1 y Ω ∈ F2 . Por lo
tanto Ω ∈ F1 ∩ F2 .
b) Sea A un elemento en F1 ∩ F2 . Entonces A ∈ F1 y A ∈ F2 . Por lo
tanto Ac ∈ F1 y Ac ∈ F2 , es decir, Ac ∈ F1 ∩ F2 .
S en F1 ∩F2 . Entonces
c) Sea A1 , A2 , . . . una sucesión de elementos S∞ A1 , A2 , . . . ∈
F1 y A1 ,SA2 , . . . ∈ F2 . Por lo tanto ∞ n=1 An ∈ F1 y n=1 A n ∈ F2 ,
es decir, ∞ n=1 n A ∈ F1 ∩ F 2 .
Capı́tulo 1. Espacios de probabilidad 7
Hemos entonces comprobado que si F1 y F2 son dos σ-álgebras de un mismo
conjunto Ω, entonces F1 ∩F2 es nuevamente una σ-álgebra de subconjuntos
de Ω, naturalmente más pequeña que F1 y F2 en el sentido F1 ∩ F2 ⊆
F1 , F2 . La siguiente pregunta consiste en verificar si la unión de dos σ-
álgebras produce nuevamente una σ-álgebra. En este caso la respuesta es
negativa. En general no es cierto que la unión de dos σ-álgebras produce una
nueva σ-álgebra. Véanse por ejemplo los ejercicios 9 y 10 a este respecto. Por
otro lado se puede extender la validez de la proposición recién demostrada
a intersecciones más generales como indica el siguiente resultado.
Proposición. La intersección finita, infinita numerable o bien arbitraria
de σ-álgebras es nuevamente una σ-álgebra.
Demostración. Sea T un conjunto arbitrario distinto del vacı́o. Suponga
T cada t en T se tiene una σ-álgebra Ft de subconjuntos de Ω. Sea
que para
F = t∈T Ft . Siguiendo los mismos pasos que en la demostración anterior
es fácil probar que F es una σ-álgebra. Observe que como T es un conjunto
arbitrario, la σ-álgebra F es efectivamente una intersección arbitraria de
σ-álgebras.
Lo demostrado anteriormente garantiza que la siguiente definición tiene sen-
tido.
Definición. (σ-álgebra generada). Sea C una colección no vacı́a de
subconjuntos de Ω. La σ-álgebra generada por C , denotada por σ(C ),
es la colección
\
σ(C ) = {F : F es σ-álgebra y C ⊆ F }.
Es decir, la colección σ(C ) es la intersección de todas aquellas σ-álgebras
que contienen a C . Por la proposición anterior sabemos que σ(C ) es una
8 1.2. σ-álgebras
σ-álgebra. A σ(C ) también se le llama mı́nima σ-álgebra generada por C ,
y el adjetivo mı́nima es claro a partir del hecho de que es la σ-álgebra más
pequeña que contiene a la colección C . Es decir, si F es una σ-álgebra
que contiene a C , entonces forzosamente σ(C ) ⊆ F . Observe que C ⊆
σ(C ) pues a la colección C se le han añadido posiblemente algunos otros
subconjuntos para convertirla en la σ-álgebra σ(C ).
Ejemplo. Sean A, B ⊆ Ω con A y B ajenos. Defina la colección C = {A, B}. En
general esta colección no es una σ-álgebra pero podemos añadirle algunos subcon-
juntos de Ω para encontrar la σ-álgebra generada por C . Esto es,
σ(C ) = {∅, A, B, (A ∪ B)c , A ∪ B, Ac , B c , Ω}.
Resulta que ésta es la mı́nima σ-álgebra que contiene a la colección C . ¿Puede
usted demostrar tal afirmación? ◦
Los siguientes dos resultados son proposiciones sencillas y naturales acer-
ca de σ-álgebras generadas. Las demostraciones son cortas pero requieren
algunos momentos de reflexión en una primera lectura.
Proposición. Sean C1 y C2 dos colecciones de subconjuntos de Ω tales
que C1 ⊆ C2 . Entonces σ(C1 ) ⊆ σ(C2 ).
Demostración. Claramente C1 ⊆ C2 ⊆ σ(C2 ). Entonces σ(C2 ) es una σ-
álgebra que contiene a la colección C1 . Por lo tanto σ(C1 ) ⊆ σ(C2 ).
Proposición. Si F es una σ-álgebra, entonces σ(F ) = F .
Demostración. Sabemos que F ⊆ σ(F ). Por otro lado como F es una σ-
álgebra que contiene a F , entonces σ(F ) ⊆ F . Esto demuestra la igualdad.
Capı́tulo 1. Espacios de probabilidad 9
Ejercicio. Demuestre que σ(σ(C )) = σ(C ), en donde C una colección de sub-
conjuntos de Ω. ◦
Ejercicio. Demuestre que σ(C1 ∪ C2 ) = σ( σ(C1 ) ∪ σ(C2 ) ), en donde C1 y C2
son dos colecciones no vacı́as de subconjuntos de Ω. ◦
Otras estructuras de subconjuntos
En esta sección se presentan los conceptos de álgebra y semi-álgebra, y su
relación con σ-álgebras. No estudiaremos estas estructuras con detalle pero
las mencionamos porque desempeñan un papel importante en la construc-
ción y extensión de medidas de probabilidad.
Definición. (Álgebra). Una colección A de subconjuntos de Ω es una
álgebra si cumple las siguientes condiciones:
1. Ω ∈ A .
2. Si A ∈ A , entonces Ac ∈ A .
n
[
3. Si A1 , . . . , An ∈ A , entonces Ak ∈ A .
k=1
La diferencia entre una álgebra y una σ-álgebra estriba en que para la
primera se pide que sea una colección cerrada bajo uniones finitas mientras
que la segunda es una colección cerrada bajo uniones infinitas numerables.
Claramente toda σ-álgebra es una álgebra.
10 1.2. σ-álgebras
Definición. (Semiálgebra). Una colección S de subconjuntos de Ω
es una semiálgebra si cumple las siguientes condiciones:
1. Ω ∈ S .
2. Si A, B ∈ S , entonces A ∩ B ∈ S .
3. Si A, A1 ∈ S son tales que A1 ⊆ A, entonces existen A2 , . . . , An ∈
S tales que
[n
A= Ak ,
k=1
en donde los subconjuntos A1 , . . . , An son ajenos dos a dos.
Los conceptos de σ-álgebra, álgebra y semiálgebra están relacionados como
se muestra en la Figura 1.2. En la sección de ejercicios se pide demostrar
las implicaciones y no implicaciones que se obtienen de este diagrama.
σ-álgebras
álgebras
semiálgebras
Figura 1.2: Relación general entre σ-álgebras, álgebras y semiálgebras.
A continuación se estudia un ejemplo particular de σ-álgebra de subconjun-
tos de números reales: la σ-álgebra de Borel.
Capı́tulo 1. Espacios de probabilidad 11
Conjuntos de Borel
Considere la colección de todos los intervalos abiertos (a, b) de R, en donde
a ≤ b. A la mı́nima σ-álgebra generada por esta colección se le llama σ-
álgebra de Borel de R, y se le denota por B(R).
Definición. (σ-álgebra de Borel de R).
B(R) = σ {(a, b) ⊆ R : a ≤ b} .
A los elementos de B(R) se les llama conjuntos de Borel , Borelianos o
conjuntos Borel medibles. De esta forma se puede asociar la σ-álgebra B(R)
al conjunto de números reales, y obtener ası́ el espacio medible (R, B(R)).
Se muestran a continuación algunos elementos explı́citos de esta σ-álgebra.
Proposición. Para cualesquiera números reales a ≤ b, los intervalos
[a, b], (a, ∞), (−∞, b), [a, b), (a, b] y {a}, son todos elementos de B(R).
Demostración. Primeramente observe que los intervalos cerrados [a, b] son
conjuntos Borelianos, pues podemos escribirlos en términos de una intersec-
ción numerable de intervalos abiertos de la siguiente forma
∞
\ 1 1
[a, b] = (a − , b + ).
n n
n=1
Observe que cada elemento de la intersección anterior es un conjunto Bore-
liano. Siendo B(R) una σ-álgebra, la intersección infinita es un elemento de
B(R). De esta forma se concluye que cada intervalo cerrado es un conjunto
12 1.2. σ-álgebras
de Borel. As mismo tenemos que
∞
[
(a, ∞) = (a, a + n) ∈ B(R),
n=1
[∞
y (−∞, b) = (b − n, b) ∈ B(R).
n=1
Por lo tanto
∞
\ 1
[a, ∞) = (a − , ∞) ∈ B(R),
n
n=1
∞
\ 1
y (−∞, b] = (−∞, b + ) ∈ B(R).
n=1
n
De forma análoga se puede hacer ver que los intervalos semiabiertos de la
forma [a, b) y (a, b] son conjuntos Borelianos. Los conjuntos que constan de
un solo número también son conjuntos Borelianos pues
∞
\ 1 1
{a} = (a − , a + ).
n n
n=1
Complementos, intersecciones y uniones numerables de estos conjuntos son
todos ellos Borelianos. Este hecho puede utilizarse para comprobar los si-
guientes resultados.
Ejercicio. Demuestre directamente que N, Z y Q son elementos de B(R). De-
muestre además que el conjunto de números irracionales es un conjunto de Borel
de R. ◦
Capı́tulo 1. Espacios de probabilidad 13
Además de la definición enunciada, existen otras formas equivalentes de
generar a los conjuntos Borelianos. Este es el contenido de la siguiente pro-
posición.
Proposición. Las siguientes σ-álgebras son todas idénticas a B(R).
1. σ{[a, b] : a ≤ b}. 4. σ{(a, ∞) : a ∈ R}.
2. σ{(a, b] : a ≤ b}. 5. σ{(−∞, b) : b ∈ R}.
3. σ{[a, b) : a ≤ b}.
Demostración. Se prueba únicamente el primer inciso, el resto de ellos se
demuestra usando el mismo procedimiento. Para demostrar que B(R) =
σ{[a, b] : a ≤ b} se verifican ambas contenciones. Claramente [a, b] ∈ B(R),
por lo tanto {[a, b] : a ≤ b} ⊆ B(R). Entonces
σ{[a, b] : a ≤ b} ⊆ B(R).
Ahora se demuestra Sla contención contraria. Sabemos que (a, b) ∈ σ{[a, b] :
a ≤ b} pues (a, b) = ∞ 1 1
n=1 [a + n , b − n ]. Entonces
{(a, b) : a ≤ b} ⊆ σ{[a, b] : a ≤ b}.
Por lo tanto B(R) ⊆ σ{[a, b] : a ≤ b}.
De manera equivalente se puede definir a B(R) como la mı́nima σ-álgebra
generada por todos los subconjuntos abiertos de R. En ambos casos la σ-
álgebra generada es B(R).
Es natural preguntarse si la colección B(R) contiene a todos los subconjun-
tos de R. La respuesta es negativa, es decir, puede demostrarse que existe
un subconjunto de los números reales que no pertenece a la colección B(R).
La construcción del tal conjunto no es sencilla, y puede obtenerse indirecta-
mente de la siguiente forma: la colección B(R) está contenida en una clase
más amplia llamada la colección de conjuntos Lebesgue medibles de R, y se
14 1.2. σ-álgebras
demuestra que existen subconjuntos de R que no son Lebesgue medibles, y
por tanto tampoco Borel medibles. Los detalles de estas afirmaciones pueden
encontrarse en textos de teorı́a de la medida, como por ejemplo [5] o [14].
Es posible también considerar la σ-álgebra de conjuntos de Borel restringi-
dos a una porción de los números reales como se indica a continuación.
Definición. Sea A ∈ B(R). La σ-álgebra de Borel de A, denotada por
B(A) o por A ∩ B(R), se define como sigue
B(A) = {A ∩ B : B ∈ B(R)}.
No es difı́cil comprobar que la colección B(A) es efectivamente una σ-álge-
bra de subconjuntos de A. Observe que el nuevo conjunto total es A y no
R. El concepto de σ-álgebra de Borel de R puede extenderse a dimensio-
nes mayores de la siguiente forma. Considere la colección C de todas los
rectángulos abiertos de R2 , es decir,
C = {(a, b) × (c, d) : a ≤ b, c ≤ d}.
Se definen los conjuntos de Borel de R2 como los elementos de la mı́nima
σ-álgebra generada por la colección C , es decir, B(R2 ) = σ(C ). De manera
equivalente se puede definir B(R2 ) = σ(B(R) × B(R)). En forma análoga
se define B(Rn ) usando productos cartesianos de intervalos.
Definición. (σ-álgebra de Borel de Rn ).
B(Rn ) = σ(B(R) × · · · × B(R)).
En general el producto cartesiano de dos σ-álgebras no es una σ-álgebra
de subconjuntos del espacio producto, de modo que debe anteponerse la
operación σ a tal colección para convertirla en una σ-álgebra.
Ejercicio. (σ-álgebra producto). Demuestre que el producto cartesiano de
Capı́tulo 1. Espacios de probabilidad 15
dos σ-álgebras no es necesariamente σ-álgebra. Esto es, suponga que (Ω1 , F1 ) y
(Ω2 , F2 ) son dos espacios medibles. Mediante un ejemplo muestre que F1 × F2 no
necesariamente es una σ-álgebra de subconjuntos del espacio producto Ω1 × Ω2 . Se
define entonces la σ-álgebra producto como σ(F1 × F2 ). ◦
Ejercicio. Demuestre que B(R2 ) = σ(B(R) × B(R)). ◦
Sucesiones de eventos
En esta sección se estudia el concepto de convergencia de una sucesión infi-
nita de eventos. Para enunciar tal concepto necesitaremos antes las defini-
ciones de lı́mite superior y lı́mite inferior para conjuntos. Estas definiciones
son análogas al caso de sucesiones numéricas como puede consultarse en un
apéndice al final del texto.
Definición. (Lı́mite superior e inferior). Para una sucesión de
eventos {An : n ∈ N}, se define el lı́mite superior y el lı́mite inferior
como sigue:
∞ [
\ ∞
1. lı́m sup An = Ak .
n→∞
n=1 k=n
∞ \
[ ∞
2. lı́m inf An = Ak .
n→∞
n=1 k=n
Tanto el lı́mite superior como el lı́mite inferior son operaciones bien defini-
das, es decir, el resultado siempre existe y es único. En cada caso, el conjunto
resultante es siempre un evento, es decir, un conjunto medible. Es sencillo
16 1.2. σ-álgebras
también comprobar que
lı́m inf An ⊆ lı́m sup An .
n→∞ n→∞
Tampoco es difı́cil verificar que un elemento pertenece al evento lı́mite su-
perior si, y sólo si, pertenece a una infinidad de elementos de la sucesión. En
algunos textos de habla inglesa el evento lı́mite superior se escribe (An i.o.),
en donde las letras i.o. significan “infinitely often”. Por otro lado un ele-
mento pertenece al evento lı́mite inferior si, y sólo si, pertenece a todos
los elementos de la sucesión excepto un número finito de ellos. Con estos
conceptos podemos ahora establecer la definición de convergencia de una
sucesión de eventos.
Definición. (Convergencia de eventos). Sea {An : n ∈ N} una
sucesión de eventos. Si existe un evento A tal que
lı́m inf An = lı́m sup An = A,
n→∞ n→∞
entonces se dice que la sucesión converge al evento A, y se escribe
lı́m An = A.
n→∞
Para calcular el posible lı́mite de una sucesión de eventos debemos entonces
calcular el lı́mite superior y el lı́mite inferior, y cuando el resultado de ambas
operaciones coincida, entonces a tal resultado común se le llama el lı́mite de
la sucesión.
Ejemplo. Para cada número natural n defina el conjunto An = [−1/n, 0] si n es
impar, y An = [0, 1/n] si n es par. Entonces lı́m An = {0} pues
n→∞
∞
\ ∞
[ ∞
\
lı́m sup An = Ak = [−1/n, 1/n] = {0},
n→∞
n=1 k=n n=1
[∞ \ ∞ [∞
y lı́m inf An = Ak = {0} = {0}.
n→∞
n=1 k=n n=1
◦
Capı́tulo 1. Espacios de probabilidad 17
Ejercicio. Sea A un evento. Demuestre que la siguiente sucesión de eventos no
es convergente.
A si n es impar,
An =
Ac si n es par.
◦
Como el ejercicio anterior muestra, no todas las sucesiones de eventos con-
vergen. Demostramos a continuación que en particular toda sucesión monóto-
na es convergente. Más adelante presentaremos algunos otros ejemplos con-
cretos de sucesiones de eventos, y en la sección de ejercicios se encuentran
algunos otros.
Proposición. Sea {An : n ∈ N} una sucesión monótona de eventos.
∞
[
1. Si A1 ⊆ A2 ⊆ · · · , entonces lı́m An = An .
n→∞
n=1
∞
\
2. Si A1 ⊇ A2 ⊇ · · · , entonces lı́m An = An .
n→∞
n=1
Demostración.
1. Como la sucesión es creciente, entonces (observe el valor inicial del
subı́ndice en las operaciones de unión e intersección),
∞
[ ∞
[
Ak = Ak ,
k=n k=1
\∞
y Ak = An .
k=n
18 1.2. σ-álgebras
Por lo tanto
∞ [
\ ∞ ∞ [
\ ∞ ∞
[
lı́m sup An = Ak = Ak = Ak ,
n→∞
n=1 k=n n=1 k=1 k=1
[∞ \ ∞ [∞
y lı́m inf An = Ak = An .
n→∞
n=1 k=n n=1
2. El procedimiento es completamente análogo al inciso anterior. En este
caso como la sucesión es decreciente se tiene que
∞
\ ∞
\
Ak = Ak ,
k=n k=1
[∞
y Ak = An .
k=n
Entonces
∞ [
\ ∞ ∞
\
lı́m sup An = Ak = An ,
n→∞
n=1 k=n n=1
[∞ \ ∞ [∞ \∞ ∞
\
y lı́m inf An = Ak = Ak = Ak .
n→∞
n=1 k=n n=1 k=1 k=1
El siguiente resultado establece que a partir de una sucesión de eventos
puede construirse otra sucesión cuyos elementos son ajenos dos a dos, y cuya
unión es la unión de la sucesión original. Este procedimiento de separación
será de utilidad más adelante.
Capı́tulo 1. Espacios de probabilidad 19
Proposición. Sea {An : n ∈ N} una sucesión de eventos. Defina
n−1
[
B1 = A1 , y Bn = An − Ak , para n ≥ 2.
k=1
Entonces la sucesión de eventos {Bn : n ∈ N} satisface las siguientes
propiedades:
1. Bn ⊆ An .
2. Bn ∩ Bm = ∅, si n 6= m.
∞
[ ∞
[
3. Bn = An .
n=1 n=1
Demostración.
1. Esto evidente a partir de la definición de Bn .
2. Sin pérdida de generalidad suponga n < m, entonces
n−1
[ m−1
[
Bn ∩ Bm = (An − Ak ) ∩ (Am − Ak )
k=1 k=1
n−1
\ m−1
\
= (An ∩ Ack ) ∩ (Am ∩ Ack )
k=1 k=1
⊆ An ∩ Acn
= ∅.
3. Consideraremos cada contención por separado. Como cada Bn está con-
tenido en An , entonces el lado izquierdo es efectivamente un sub-
conjunto del lado derecho. Por el contrario, sea x un elemento en
20 1.3. Medidas de probabilidad
S∞
n=1 An . Entonces existe un ı́ndice n tal que x ∈ An . Sea n0 el pri-
tal que x ∈ An0 y x ∈
mer ı́ndice S / Aj para 1 ≤ j ≤ n0 − S 1. Entonces
x ∈ An0 − nn=10 −1
An = Bn0 . Por lo tanto x pertenece a ∞ n=1 Bn .
1.3. Medidas de probabilidad
En esta sección y en lo que resta del presente capı́tulo se estudian algunas
propiedades de las medidas de probabilidad. Empezaremos por recordar
nuevamente la definición de este concepto.
Definición. (Medida de probabilidad). Sea (Ω, F ) un espacio me-
dible. Una medida de probabilidad es una función P : F → [0, 1] que
satisface
1. P (Ω) = 1.
2. P (A) ≥ 0, para cualquier A ∈ F .
3. Si A1 , A2 , . . . ∈ F son ajenos dos a dos, esto es, An ∩ Am = ∅ para
∞
[ ∞
X
n 6= m, entonces P ( An ) = P (An ).
n=1 n=1
Entonces toda función P definida sobre una σ-álgebra F , con valores en el
intervalo [0, 1] y que cumpla los tres postulados anteriores se le llama medida
de probabilidad o probabilidad axiomática. Estos axiomas fueron establecidos
por A. N. Kolmogorov en 1933. En particular, la tercera propiedad se conoce
con el nombre de σ-aditividad.
Ejemplo. (Probabilidad clásica). Considere un experimento aleatorio con
espacio muestral un conjunto finito Ω. Asocie a este conjunto la σ-álgebra 2Ω , y
Capı́tulo 1. Espacios de probabilidad 21
para cualquier subconjunto A de Ω defina
#A
P (A) = .
#Ω
Entonces P es una medida de probabilidad, y es llamada probabilidad clásica. De
acuerdo a esta definición, para calcular la probabilidad de un evento es necesario
entonces conocer su cardinalidad. En los inicios de la teorı́a de la probabilidad se
consideraban únicamente modelos de este tipo, los cuales eran estudiados en el
contexto de los juegos de azar. De esta forma de calcular probabilidades surgen
muchos y muy variados problemas de conteo, algunos de los cuales pueden no ser
fáciles de resolver. Por ejemplo, si cuatro parejas se sientan al azar en una mesa cir-
cular, ¿cuál es la probabilidad de que ninguna persona se siente junto a su pareja? ◦
Ejemplo. Considere un experimento aleatorio con espacio muestral el conjunto
de números naturales N. Asocie a este conjunto la σ-álgebra 2N . Para cualquier
subconjunto A de N defina
X 1
P (A) = .
2n
n∈A
Es decir, el número natural n tiene asociada la probabilidad 1/2n, como se muestra
en la Figura 1.3. No es difı́cil verificar que P es efectivamente una medida de
probabilidad concentrada en el conjunto de números naturales.
P (X = x)
1 b
2
b
b
b
b b
x
1 2 3 4 5 6 ···
Figura 1.3: Una medida de probabilidad concentrada en los números naturales.
◦
22 1.3. Medidas de probabilidad
Ejemplo. Considere el espacio medible (R, B(R)). Sea f : R → [0, ∞) una fun-
ción no negativa y continua, tal que su integral sobre el intervalo (−∞, ∞) es uno.
Para cualquier conjunto de Borel A defina
Z
P (A) = f (x) dx.
A
Se puede demostrar que P es una medida de probabilidad sobre B(R). ◦
Ejemplo. (Probabilidad geométrica). Sea Ω ⊆ R2 una región tal que su área
es positiva y finita. Sea F una σ-álgebra de subconjuntos de Ω para los cuales el
concepto de área esté bien definido. Para cada A en F defina
Área (A)
P (A) = .
Área (Ω)
La función P resulta ser una medida de probabilidad, y es llamada probabilidad
geométrica. Esta definición puede extenderse a espacios de dimensión mayor de
manera evidente. Un ejemplo en donde se utiliza esta forma de calcular proba-
bilidades es el siguiente. Suponga que dos personas deciden llegar a su cita de
encuentro completamente al azar dentro del lapso de una hora especificada, y es-
perarse a lo sumo 15 minutos en caso de que la otra persona no haya llegado, ¿cuál
es la probabilidad de que las personas se encuentren? ◦
En la siguiente sección estudiaremos algunas propiedades generales que cum-
ple toda medida de probabilidad, y a lo largo del texto consideraremos varios
modelos particulares para el cálculo de probabilidades.
Propiedades elementales
A partir de los postulados enunciados en la sección anterior es posible de-
mostrar una extensa serie de propiedades que cumplen todas las medidas de
probabilidad. En esta sección se estudian algunas propiedades elementales
que posiblemente ya conoce el lector, y más adelante se demuestran otras
propiedades ligeramente más avanzadas.
Capı́tulo 1. Espacios de probabilidad 23
Proposición. Sea (Ω, F , P ) un espacio de probabilidad. Entonces
1. P (∅) = 0.
2. Si A1 , . . . , An ∈ F son ajenos dos a dos, entonces
n
[ n
X
P( Ak ) = P (Ak ).
k=1 k=1
3. P (Ac ) = 1 − P (A).
4. Si A ⊆ B, entonces P (B − A) = P (B) − P (A).
5. Si A ⊆ B, entonces P (A) ≤ P (B).
6. 0 ≤ P (A) ≤ 1.
7. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
8. P (A ∪ B) ≤ P (A) + P (B).
Demostración.
Como ∅ = ∅ ∪ ∅ ∪ · · · , por la σ-aditividad se tiene que P (∅) =
1. P
∞
n=1 P (∅), lo cual sucede únicamente cuando P (∅) = 0.
2. Se toma An+1 = An+2 = · · · = ∅, y la igualdad se obtiene al aplicar la
σ-aditividad y la propiedad anterior.
3. Se expresa a Ω como la unión disjunta A ∪ Ac . Aplicamos P y obte-
nemos la igualdad requerida.
4. Escribimos B = A ∪ (B − A). Aplicando P obtenemos P (B) − P (A) =
P (B − A).
5. Como la probabilidad de cualquier evento es un número no negativo,
el resultado se sigue de la propiedad anterior.
24 1.3. Medidas de probabilidad
6. La primera desigualdad es el segundo axioma, y la segunda es conse-
cuencia de la propiedad anterior cuando B = Ω y el primer axioma.
7. Descomponemos el evento A ∪ B como la siguiente unión de tres even-
tos disjuntos dos a dos: A ∪ B = (A − B) ∪ (A ∩ B) ∪ (B − A) =
(A − A ∩ B) ∪ (A ∩ B) ∪ (B − A ∩ B). Por lo tanto P (A ∪ B) =
P (A) − P (A ∩ B) + P (A ∩ B) + P (B) − P (A ∩ B).
8. Esta propiedad es consecuencia de la anterior y el segundo axioma.
La propiedad (2) establece que las probabilidades son funciones finitamente
aditivas, y la propiedad (5) que son funciones monótonas. La desigualdad (8)
dice que las probabilidades son funciones finitamente subaditivas. Veamos
algunas otras propiedades de las medidas de probabilidad.
Proposición. (Desigualdades de Boole). Sea {An : n ∈ N} una
sucesión de eventos. Entonces
∞
[ ∞
X
1. P ( An ) ≤ P (An ).
n=1 n=1
∞
\ ∞
X
2. P ( An ) ≥ 1 − P (Acn ).
n=1 n=1
Demostración.
1. Tome B1 = A1 , y para n ≥ 2 defina
n−1
[
Bn = An − Ak .
k=1
Capı́tulo 1. Espacios de probabilidad 25
Hemos demostrado antes que {Bn : n ∈ N}S es una sucesión
S∞ de eventos
disjuntos dos a dos tales que Bn ⊆ An y ∞
n=1 An = n=1 Bn . Por lo
tanto
∞
[ ∞
[
P( An ) = P ( Bn )
n=1 n=1
∞
X
= P (Bn )
n=1
X∞
≤ P (An ).
n=1
2. Esta desigualdad se sigue de la primera al considerar la sucesión de
los complementos.
Proposición. Sea {An : n ∈ N} una sucesión de eventos.
T
1. Si P (An ) = 1 para toda n, entonces P ( ∞n=1 An ) = 1.
S
2. Si P (An ) = 1 para alguna n, entonces P ( ∞n=1 An ) = 1.
T
3. Si P (An ) = 0 para alguna n, entonces P ( ∞n=1 An ) = 0.
S
4. Si P (An ) = 0 para toda n, entonces P ( ∞n=1 An ) = 0.
Demostración.
26 1.3. Medidas de probabilidad
1. Por las leyes de De Morgan y la desigualdad de Boole,
∞
\ ∞
[
P( An ) = 1 − P ( Acn )
n=1 n=1
∞
X
≥ 1− P (Acn )
n=1
= 1.
∞
[ ∞
[
2. Como An ⊆ An , se tiene que 1 = P (An ) ≤ P ( An ).
n=1 n=1
∞
\ ∞
\
3. Como An ⊆ An , entonces P ( An ) ≤ P (An ) = 0.
n=1 n=1
∞
[ ∞
X
4. Por la desigualdad de Boole, P ( An ) ≤ P (An ) = 0.
n=1 n=1
Las propiedades (1) y (4) de la proposición anterior pueden interpretarse
de la siguiente forma. Intersectar dos eventos produce en general un evento
más pequeño, o por lo menos no mayor a los intersectandos. Sin embargo la
propiedad (1) establece que la intersección, aún infinita, de eventos con pro-
babilidad uno produce un evento con probabilidad uno. Análogamente, unir
dos eventos produce en general un evento mayor, pero por la propiedad (4),
la unión, aún infinita, de eventos con probabilidad cero tiene probabilidad
cero.
Dos de las propiedades elementales más conocidas y de amplia aplicación
son la fórmula de probabilidad total y la fórmula de Bayes.
Ejercicio. (Teorema de probabilidad total). Sea (Ω, F , P ) un espacio de
probabilidad, y sea {A1 , A2 , . . .} una partición de Ω tal que cada elemento de la
Capı́tulo 1. Espacios de probabilidad 27
partición es un evento con probabilidad estrictamente positiva. Demuestre que para
cualquier evento B,
∞
X
P (B) = P (B | An )P (An ).
n=1
◦
Ejercicio. (Teorema de Bayes). Sea (Ω, F , P ) un espacio de probabilidad, y
sea A1 , A2 , . . . una partición de Ω tal que cada elemento de la partición es un evento
con probabilidad estrictamente positiva. Demuestre que para cualquier evento B
tal que P (B) > 0, y para cualquier m ≥ 1 fijo,
P (B | Am )P (Am )
P (Am | B) = ∞ .
X
P (B|An )P (An )
n=1
Ejercicio. (Completación de espacios). Se dice que un espacio de probabili-
dad (Ω, F , P ) es completo si cada vez que se tenga la situación A ⊆ B con B ∈ F y
P (B) = 0, entonces también se tiene que A ∈ F y P (A) = 0. Un espacio de proba-
bilidad (Ω, F , P ) que no es completo puede ser completado de la siguiente forma.
Se toma el mismo Ω y se define la colección F¯ de todos aquellos subconjuntos
A ⊆ Ω para los cuales existan B y C en F con P (C) = 0, tales que
B ⊆ A ⊆ B ∪ C.
Para tal conjunto A se define P̄ (A) = P (B). Entonces resulta que (Ω, F¯ , P̄ ) es
un espacio de probabilidad completo, y se llama la completación de (Ω, F , P ).
Verifique esta afirmación demostrando los siguientes incisos.
a) F¯ es efectivamente una σ-álgebra.
b) F ⊆ F¯ .
c) La definición de P̄ (A) no depende del subconjunto B asociado, es decir, la
definición es única.
d) P̄ es una medida de probabilidad sobre F¯ .
28 1.3. Medidas de probabilidad
e) P̄ (A) = P (A), para cada A en F .
f) El espacio de probabilidad (Ω, F¯ , P̄ ) es completo.
g) (Ω, F¯ , P̄ ) es el espacio de probabilidad completo más pequeño que contiene
a (Ω, F , P ), es decir, si (Ω, F1 , P1 ) es otro espacio de probabilidad completo
tal que F ⊆ F1 y P1 = P sobre F , entonces F¯ ⊆ F1 y P̄ = P1 sobre F¯ .
Continuidad
Ahora demostraremos que las medidas de probabilidad son funciones con-
tinuas. Primero se prueba este resultado importante para dos tipos de su-
cesiones particulares, aquellas que son monótonas crecientes o decrecientes,
y después se prueba en general. Empezaremos con el caso de sucesiones
crecientes.
Proposición. Sea {An : n ∈ N} una sucesión no decreciente de eventos,
esto es, A1 ⊆ A2 ⊆ · · · . Entonces
∞
[
P( An ) = lı́m P (An ).
n→∞
n=1
Demostración. Como An ⊆ An+1 , tenemos que P (An ) ≤ P (An+1 ). Por lo
tanto la sucesión numérica {P (An ) : n ∈ N} es no decreciente y acotada
superiormente por uno. Entonces el lı́mite de esta sucesión existe y el lado
derecho de la igualdad tiene sentido. Defina los eventos
B1 = A1 ,
y Bn = An − An−1 , para n ≥ 2.
Capı́tulo 1. Espacios de probabilidad 29
La sucesión {Bn : n ∈ N} es una colección de eventos disjuntos dos a dos,
y es tal que
∞
[ [∞
An = Bn .
n=1 n=1
Por lo tanto
∞
[ ∞
[
P( An ) = P ( Bn )
n=1 n=1
∞
X
= P (Bn )
n=1
∞
X
= P (B1 ) + P (Bn )
n=2
X∞
= P (A1 ) + P (An − An−1 )
n=2
X∞
= P (A1 ) + P (An ) − P (An−1 )
n=2
m
X
= P (A1 ) + lı́m P (An ) − P (An−1 )
m→∞
n=2
= P (A1 ) + lı́m P (Am ) − P (A1 )
m→∞
= lı́m P (Am ).
m→∞
Las medidas de probabilidad también son continuas respecto de sucesio-
nes no crecientes de eventos. Esta afirmación es el contenido del siguiente
resultado que se demuestra a partir de la proposición anterior.
30 1.3. Medidas de probabilidad
Proposición. Sea {An : n ∈ N} una sucesión no creciente de eventos,
esto es, A1 ⊇ A2 ⊇ · · · . Entonces
∞
\
P( An ) = lı́m P (An ).
n→∞
n=1
Demostración. Observe que si An ⊇ An+1 , entonces Acn ⊆ Acn+1 . Por la
proposición anterior,
∞
[
P( Acn ) = lı́m P (Acn ).
n→∞
n=1
Aplicando las leyes de De Morgan,
∞
\
1 − P( An ) = lı́m (1 − P (An )),
n→∞
n=1
de donde se sigue inmediatamente el resultado.
Ahora se enuncia un resultado más fuerte. Demostraremos que las medidas
de probabilidad son funciones continuas. Esta propiedad es muy útil pues
permite el cálculo de probabilidades en procedimientos lı́mite, y se encuentra
siempre presente de manera implı́cita en toda la teorı́a que se desarrolla más
adelante.
Proposición. (Continuidad de la probabilidad). Sea {An : n ∈
N} una sucesión de eventos convergente al evento A. Entonces
lı́m P (An ) = P (A).
n→∞
Demostración. La prueba se basa en las siguientes dos desigualdades:
Capı́tulo 1. Espacios de probabilidad 31
a) lı́m sup P (An ) ≤ P (lı́m sup An ).
n→∞ n→∞
b) P (lı́m inf An ) ≤ lı́m inf P (An ).
n→∞ n→∞
Como la sucesión de eventos es convergente al evento A, entonces el lı́mi-
te superior y el lı́mite inferior son iguales a A. Se sigue entonces de las
desigualdades (a) y (b) que
lı́m sup P (An ) ≤ P (lı́m sup An )
n→∞ n→∞
= P (A)
= P (lı́m inf An )
n→∞
≤ lı́m inf P (An ).
n→∞
De donde se concluye el resultado. Nos concentraremos ahora en demostrar
las desigualdades enunciadas.
S∞
a) Como An ⊆ k=n Ak , entonces
∞
[
P (An ) ≤ P ( Ak ),
k=n
S
en donde { ∞k=n Ak : n ∈ N} es una sucesión decreciente de eventos.
32 1.3. Medidas de probabilidad
Tomando el lı́mite superior se obtiene
∞
[
lı́m sup P (An ) ≤ lı́m sup P ( Ak )
n→∞ n→∞
k=n
∞
[
= lı́m P ( Ak )
n→∞
k=n
[∞
= P ( lı́m Ak )
n→∞
k=n
∞ [
\ ∞
= P( Ak )
n=1 k=n
= P (lı́m sup An ).
n→∞
T∞
b) Como k=n Ak ⊆ An , entonces
∞
\
P( Ak ) ≤ P (An ),
k=n
T
en donde { ∞k=n Ak : n ∈ N} es una sucesión creciente de eventos.
Tomando el lı́mite inferior se obtiene
∞
\
lı́m inf P (An ) ≥ lı́m inf P ( Ak )
n→∞ n→∞
k=n
∞
\
= lı́m P ( Ak )
n→∞
k=n
\∞
= P ( lı́m Ak )
n→∞
k=n
∞ \
[ ∞
= P( Ak )
n=1 k=n
= P (lı́m inf An ).
n→∞
Capı́tulo 1. Espacios de probabilidad 33
Ejemplo. Se lanza un dado equilibrado una infinidad de veces. Sea An el evento
correspondiente a obtener el evento A = {2, 4, 6} en cada uno de los primeros n
lanzamientos del dado. Entonces claramente An ⊇ An+1 y P (An ) = 1/2n para
cualquier n en N. Por lo tanto
∞
\
lı́m An = An .
n→∞
n=1
Entonces
∞
\
P( An ) = P ( lı́m An ) = lı́m P (An ) = lı́m 1/2n = 0.
n→∞ n→∞ n→∞
n=1
T∞
El evento n=1 An se interpreta como aquel conjunto de resultados en el que siem-
pre se obtiene un número par en cada uno de los lanzamientos. Hemos demostrado
que la probabilidad de tal evento es cero. En consecuencia la probabilidad de que
eventualmente aparezca un número impar es uno. Observe que el argumento pre-
sentado funciona de la misma forma cuando el evento A es cualquier subconjunto
propio de Ω distinto del vacı́o. Por ejemplo, si A = {1, 2, 3, 4, 5}, entonces la pro-
babilidad de nunca obtener “6” es cero. Por lo tanto, con probabilidad uno, cada
una de las caras del dado aparecerá eventualmente. Puede demostrarse además que
cada una de las caras aparecerá una infinidad de veces con probabilidad uno. ◦
1.4. Independencia de eventos
En esta sección se define el concepto importante de independencia de even-
tos. La independencia es un tema central en la teorı́a de la probabilidad,
y uno de sus rasgos distintivos de otras ramas de las matemáticas. De ma-
nera natural la independencia aparecerá con frecuencia a lo largo del texto
a partir de ahora, y ayudará a simplificar el cálculo de probabilidades. La
definición matemática es la siguiente.
34 1.4. Independencia de eventos
Definición. (Independencia de dos eventos). Dos eventos A y B
son independientes, y se escribe A ⊥ B, cuando
P (A ∩ B) = P (A)P (B).
A menudo aceptar la hipótesis de que dos eventos son independientes es una
cuestión de apreciación por parte del observador. La independencia puede
interpretarse en el sentido de que la ocurrencia de uno de los eventos no
proporciona información que modifique la probabilidad de ocurrencia del
segundo evento. Contrario a alguna primera concepción intuitiva errónea,
el hecho de que dos eventos sean independientes no implica que ellos sean
ajenos. La proposición contraria tampoco es válida, dos eventos ajenos no
necesariamente son independientes.
Ejercicio. Demuestre que un evento es independiente consigo mismo si, y sólo
si, su probabilidad es cero o uno. ◦
Ejercicio. Demuestre que un evento que tiene probabilidad cero o uno, es inde-
pendiente de cualquier otro evento, incluyendo él mismo. ◦
Ejercicio. Demuestre que los eventos A y B son independientes si, y sólo si,
a) A y B c lo son.
b) Ac y B lo son.
c) Ac y B c lo son.
La definición de independencia puede extenderse a colecciones finitas e in-
cluso infinitas de eventos del siguiente modo.
Capı́tulo 1. Espacios de probabilidad 35
Definición. (Independencia de varios eventos). Los eventos
A1 , . . . , An son independientes si se cumplen todas y cada una de las
siguientes condiciones:
P (Ai ∩ Aj ) = P (Ai )P (Aj ), i, j distintos. (1.1)
P (Ai ∩ Aj ∩ Ak ) = P (Ai )P (Aj )P (Ak ), i, j, k distintos. (1.2)
..
.
P (A1 ∩ · · · ∩ An ) = P (A1 ) · · · P (An ).
Más generalmente, una colección infinita de eventos es independiente si
cualquier subcolección finita lo es.
Observe que de acuerdo a la definición anterior, se necesitan verificar o
suponer varias condiciones para que n eventos sean independientes entre sı́.
De hecho el número total de igualdades a demostrar es 2n − n − 1. ¿Puede
usted demostrar esta afirmación? En la siguiente sección haremos uso del
siguiente resultado.
Ejercicio. Demuestre que los eventos A1 , . . . , An son independientes si, y sólo
si, los eventos Ac1 , . . . , Acn lo son. ◦
Es posible además demostrar que la independencia dos a dos, igualdad (1.1),
no implica en general la independencia tres a tres, igualdad (1.2), ni vice-
versa.
Ejercicio. Se lanza una moneda equilibrada tres veces. Defina los eventos
A = “Se obtiene el mismo resultado en el 1er. y 2do. lanzamiento”.
B = “Se obtiene el mismo resultado en el 2do. y 3er. lanzamiento”.
C = “Se obtiene el mismo resultado en el 3er. y 1er. lanzamiento”.
Demuestre que los eventos A, B y C son independientes dos a dos, pero no inde-
pendientes en su conjunto. ◦
36 1.4. Independencia de eventos
Ejercicio. Sean A y B eventos no independientes, y sea C = ∅. Demuestre que
A, B y C son independientes tres a tres pero no son independientes dos a dos. ◦
También se tiene la noción de independencia entre dos o mas clases de
eventos. La definición es la siguiente, como siempre se presupone un espacio
de probabilidad (Ω, F , P ) dado.
Definición. (Independencia de clases). Las clases no vacı́as de
eventos C1 , . . . , Cn son independientes si los eventos A1 , . . . , An lo son
para cualesquiera Ai en Ci , i = 1, . . . , n. Más generalmente, un conjun-
to infinito de clases no vacı́as de eventos es independiente si cualquier
subconjunto finito lo es.
En particular, dos sub-σ-álgebras F1 y F2 son independientes si para cada A
en F1 y cada B en F2 se cumple que P (A∩B) = P (A)P (B). Análogamente
para un número finito de sub-σ-álgebras F1 , . . . , Fn , o bien un número
infinito de ellas.
Ejemplo. (El problema del mono). Un mono escribe caracteres al azar en
una máquina de escribir. ¿Cuál es la probabilidad de que eventualmente obtenga
exactamente, y sin ningún error, las obras completas de Shakespeare?
Figura 1.4: Mono escribiendo al azar.
Demostramos a continuación que la probabilidad de este raro evento es uno. Ima-
gine entonces que un mono escribe caracteres al azar en una máquina de escribir,
y que lo hace de manera continua generando una sucesión lineal de caracteres. Sea
m el total de caracteres disponibles en una máquina de escribir, y sea N el total
de caracteres de los que constan las obras completas de Shakespeare. Segmentamos
Capı́tulo 1. Espacios de probabilidad 37
el arreglo lineal de caracteres generados por el mono en bloques disjuntos de N
caracteres, uno después de otro, y observamos si algún bloque contiene las obras
de Shakespeare. Por ejemplo,
Xku
| · · · aT s} hwW · · · pzq Ot · · ·
{z | {z }
N N
Para cada número natural k defina el evento Ak correspondiente a que el k-ésimo
bloque contiene exactamente, y sin error alguno, las obras completas de Shakes-
peare. Observe que los eventos Ak son independientes pues los bloques no se sobre-
ponen, además P (Ak ) = (1/m)N = p, o bien P (Ack ) = 1 − p. Defina el evento Bk
como Ac1 ∩ · · · ∩ Ack , que indica la situación en la que el mono no obtiene éxito en
los primeros k bloques. Observe que Bk+1 ⊆ Bk , es decir la sucesión es decreciente,
por lo tanto
∞
\
lı́m Bk = Bk ,
k→∞
k=1
T∞
en donde el evento k=1 Bk se interpreta como aquel en el que el mono nunca tiene
éxito. Entonces, usando la propiedad de continuidad de las medidas de probabilidad
para sucesiones decrecientes, se tiene que
∞
\
P( Bk ) = lı́m P (Bk ) = lı́m (1 − p)k = 0.
k→∞ k→∞
k=1
Por lo tanto la probabilidad del evento complemento es uno, es decir, la probabili-
dad de que eventualmente el mono obtenga éxito es uno. Más adelante se presen-
tarán otras formas de resolver este mismo problema. ◦
1.5. Lema de Borel-Cantelli
Concluimos este capı́tulo con el enunciado y demostración del famoso lema
de Borel-Cantelli. El objetivo es demostrar este resultado y con ello poner
en práctica algunas propiedades de las medidas de probabilidad, aunque
también lo usaremos para presentar un par de aplicaciones y para demostrar
la ley fuerte de los grandes números en la última parte del curso.
38 1.5. Lema de Borel-Cantelli
Proposición. (Lema de Borel-Cantelli). Sea {An : n ∈ N} una
sucesión de eventos, y defina A = lı́m sup An .
n→∞
∞
X
1. Si P (An ) < ∞, entonces P (A) = 0.
n=1 ∞
X
2. Si A1 , A2 , . . . son independientes y P (An ) = ∞, entonces
n=1
P (A) = 1.
Demostración.
1. Para cada número natural n,
∞
[ ∞
X
P (A) ≤ P ( Ak ) ≤ P (Ak ).
k=n k=n
P
Como ∞ n=1 P (An ) < ∞, el lado derecho tiende a cero cuando n tiende
a infinito. Esto implica que P (A) = 0.
2. Es suficienteSdemostrar que para todo número natural n se cumple la
igualdad P ( ∞ k=n Ak ) = 1, pues la intersección numerable de eventos
con probabilidad uno tiene probabilidad uno. Para cada m > n,
∞
[ m
[
1 − P( Ak ) ≤ 1 − P ( Ak )
k=n k=n
m
\
= P( Ack )
k=n
m
Y
= [1 − P (Ak )]
k=n
m
X
≤ exp(− P (Ak )).
k=n
Capı́tulo 1. Espacios de probabilidad 39
Para obtener la última expresión se usa la desigualdad:
P∞ 1 − x ≤ e−x ,
válida para cualquier número real x. Como n=1 P (An ) = ∞, el
ladoS∞derecho tiende a cero cuando m tiende a infinito. Por lo tanto
P ( k=n Ak ) = 1 para cualquier valor de n y entonces P (A) = 1.
Ejemplo. (El problema del mono, nuevamente). El problema de encontrar
la probabilidad de que un mono que escribe caracteres al azar en una máquina de es-
cribir, eventualmente escriba las obras completas de Shakespeare, puede resolverse
también usando el lema de Borel-Cantelli. Suponga que N es el total de caracteres
de los que constan las obras completas de Shakespeare y considere nuevamente la
división por bloques de longitud N :
x1 , . . . , xN , xN +1 , . . . , x2N , . . .
| {z } | {z }
El evento Ak se define nuevamente como aquel en el que el mono tiene éxito en el k-
ésimo bloque. Si nuevamente m denota el total de caracteres disponibles, entonces la
probabilidad del evento Ak es (1/m)N , y claramente la sucesión A1 , A2 , . . . constitu-
P∞ P∞
ye una sucesión de eventos independientes tales que k=1 P (Ak ) = k=1 (1/m)N =
∞. Entonces por la segunda parte del lema de Borel-Cantelli, la probabilidad del
lı́mite superior de la sucesión Ak es uno. Ahora sólo hay que recordar que el evento
lı́m supk→∞ Ak corresponde a aquel en el que una infinidad de eventos Ak ocurren.
Es decir, con probabilidad uno, el mono tiene, no uno, sino ¡una infinidad de éxitos!
◦
Ejercicio. Se lanza una moneda honesta una infinidad de veces. Use el lema de
Borel-Cantelli para demostrar que la probabilidad de que cada cara aparezca una
infinidad de veces es uno. ◦
Ejercicio. Considere el experimento aleatorio de lanzar una infinidad de veces
una moneda. Sea x1 · · · xn una sucesión de resultados consecutivos particular, es
decir, cada xi , para i = 1, 2, . . . , n, es un resultado particular de la moneda. Use el
lema de Borel-Cantelli para calcular la probabilidad de que aparezca una infinidad
40 1.5. Lema de Borel-Cantelli
de veces la sucesión mencionada. ◦
Capı́tulo 1. Espacios de probabilidad 41
Andrey Nikolaevich Kolmogorov (Rusia 1903–
1987). Creció bajo el amparo de su tı́a Vera Yakovlena,
pues su madre murió en el parto y su padre fue exiliado.
Trabajó un tiempo como conductor de trenes. En 1920 in-
gresó a la Universidad Estatal de Moscú, en donde además
de matemáticas tomó cursos de metalurgia e historia de
Rusia. Aún siendo estudiante de licenciatura empezó a
publicar trabajos de investigación graduandose en 1925.
Terminó su doctorado en 1929, y para entonces ya tenı́a 18
publicaciones. Contribuyó brillantemente en varias áreas
de las matemáticas como: análisis, probabilidad, proce-
sos estocásticos, lógica, análisis funcional, geometrı́a, to-
pologı́a, sistemas dinámicos, movimiento de los planetas,
turbulencia, etc. Kolmogorov tenı́a particular interés en
proveer de atención y educación especial a niños con ha-
bilidades sobresalientes. Recibió un sinnúmero de premios
y reconocimientos de distintos paises, y fue miembro de
varias sociedades y academias cientı́ficas. Fuente: Archivo
MacTutor, Universidad de St. Andrews.
42 1.6. Ejercicios
1.6. Ejercicios
σ-álgebras
1. Definición alternativa de σ-álgebra. Demuestre que F es una
σ-álgebra de subconjuntos de Ω si, y sólo si, satisface las siguientes
propiedades:
a) ∅ ∈ F .
b) A ∈ F ⇒ Ac ∈ F .
T∞
c) Si A1 , A2 , . . . ∈ F , entonces n=1 An ∈ F.
2. Definición alternativa de σ-álgebra. Demuestre que F es una
σ-álgebra de subconjuntos de Ω si, y sólo si, satisface las siguientes
propiedades:
a) Ω ∈ F .
b) A, B ∈ F ⇒ A − B ∈ F .
T∞
c) Si A1 , A2 , . . . ∈ F , entonces n=1 An ∈ F.
3. Sean A1 , . . . , An eventos de un espacio muestral Ω. Demuestre que el
conjunto de elementos de Ω que pertenecen a exactamente k de estos
eventos es un evento, 1 ≤ k ≤ n.
4. Sea F una σ-álgebra de subconjuntos de Ω. Demuestre que la colección
F c = {F c : F ∈ F } es una σ-álgebra. Compruebe que F c y F
coinciden.
5. Sea Ω = {a, b, c, d}, y sean A = {a, b} y B = {b, c}. Defina la colección
C = {A, B}. Claramente C no es una σ-álgebra. Encuentre σ(C ).
6. Sea F una σ-álgebra de subconjuntos de Ω y sea A un elemento de
F . Demuestre que la colección {A ∩ F : F ∈ F } es una σ-álgebra de
subconjuntos de A. Se usan los sı́mbolos FA ó A ∩ F para denotar a
esta colección.
Capı́tulo 1. Espacios de probabilidad 43
7. Sean Ω1 y Ω2 dos conjuntos arbitrarios, y sea X : Ω1 → Ω2 una función
en donde (Ω2 , F2 ) es un espacio medible. Demuestre que la siguiente
colección es una σ-álgebra de subconjuntos de Ω1 :
X −1 F2 = {X −1 F : F ∈ F2 }.
8. ¿Es la diferencia de dos σ-álgebras una σ-álgebra? Demuestre o pro-
porcione un contraejemplo.
9. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω. Demuestre que
F1 ∪ F2 no necesariamente es una σ-álgebra. Para ello considere el
espacio Ω = {1, 2, 3} y las σ-álgebras F1 = {∅, {1}, {2, 3}, Ω} y F2 =
{∅, {1, 2}, {3}, Ω}.
10. Sean F1 y F2 dos σ-álgebras de subconjuntos de Ω tales que F1 ⊆ F2 .
Demuestre que F1 ∪ F2 es una σ-álgebra.
11. Sea T un conjunto arbitrario distinto del vacı́o. Suponga que para cada
t en T se tiene T
una σ-álgebra Ft de subconjuntos de Ω. Demuestre
con detalle que t∈T Ft es una σ-álgebra.
12. Sean A, B ⊆ Ω arbitrarios. Demuestre que la cardinalidad de σ{A, B}
es a lo sumo 16.
13. Sean A, B ⊆ Ω arbitrarios. Encuentre explı́citamente todos los ele-
mentos de σ{A, B}. Por el ejercicio anterior, el total de elementos en
σ{A, B} es, en el caso más general, 16.
14. Sea {A1 , . . . , An } una partición finita de Ω, es decir, la unión de todos
estos conjuntos es Ω, ninguno de ellos es vacı́o y la intersección de
cualesquiera dos de ellos es vacı́a. Demuestre que la cardinalidad de
σ{A1 , . . . , An } es 2n .
15. Demuestre que toda σ-álgebra de un espacio muestral finito contiene
un número par de elementos.
16. Sea {A, B, C} una partición de Ω. Encuentre explı́citamente los ocho
elementos de σ{A, B, C}.
44 1.6. Ejercicios
17. Sea C una colección de subconjuntos de Ω. Diga falso o verdadero
justificando en cada caso: C ⊆ σ(C ) ⊆ 2Ω .
18. Demuestre que 2Ω es una σ-álgebra de subconjuntos de Ω y que no
existe una σ-álgebra de subconjuntos de Ω que sea más grande.
19. Sea Ω un conjunto, F una σ-álgebra de subconjuntos de Ω y sea A
un evento cualquiera. De cada una de las dos expresiones siguientes
determine la que es notacionalmente correcta. Explique su respuesta.
a) Ω ∈ F ó Ω ⊆ F .
b) A ∈ Ω ó A ⊆ Ω.
c) ∅ ∈ F ó ∅ ⊆ F .
d) A ∈ F ó A ⊆ F .
σ-álgebras, álgebras y semiálgebras
20. Definición alternativa de álgebra. Demuestre que F es una
álgebra de subconjuntos de Ω si, y sólo si, cumple las siguientes con-
diciones:
a) Ω ∈ F .
b) Si A, B ∈ F , entonces A − B ∈ F .
21. Demuestre que
F es σ-álgebra ⇒ F es álgebra ⇒ F es semiálgebra.
6
22. álgebra =⇒ σ-álgebra. Sea Ω = (0, 1] y defina la colección F de
subconjuntos de la forma
n
[
(ai , bi ],
i=1
en donde (ai , bi ] ⊆ (0, 1] con (ai , bi ] ∩ (aj , bj ] = ∅ para i 6= j y n ∈ N.
Demuestre que F es una álgebra pero no una σ-álgebra.
Capı́tulo 1. Espacios de probabilidad 45
23. Mediante un contraejemplo demuestre que no toda semiálgebra es una
álgebra.
Conjuntos de Borel
24. Demuestre que B(R) = σ{(a, b] : a ≤ b}.
25. Demuestre que B(R) = σ{[a, b) : a ≤ b}.
26. Demuestre que B(R) = σ{(a, ∞) : a ∈ R}.
27. Demuestre que B(R) = σ{[a, ∞) : a ∈ R}.
28. Demuestre que B(R) = σ{(−∞, b) : b ∈ R}.
29. Demuestre que B(R) = σ{(−∞, b] : b ∈ R}.
30. Sea A ∈ B(R). Demuestre que B(A) es efectivamente una σ-álgebra
de subconjuntos de A.
31. Diga falso o verdadero. Justifique su respuesta.
1
a) σ{ ( n+1 , n1 ] : n ∈ N } = B(0, 1].
b) σ{ (0, n1 ] : n ∈ N } = B(0, 1].
1
c) σ{ ( n+1 , n1 ] : n ∈ N } = σ{ (0, n1 ] : n ∈ N }.
32. Demuestre que B(R2 ) = σ{[a, b] × [c, d] : a ≤ b, c ≤ d}.
33. Demuestre que B(R2 ) = σ{(−∞, a) × (−∞, b) : a, b ∈ R}.
34. Demuestre que B(R2 ) = σ{(a, ∞) × (b, ∞) : a, b ∈ R}.
Sucesiones de eventos
35. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) lı́m sup An es un evento.
n→∞
46 1.6. Ejercicios
b) lı́m inf An es un evento.
n→∞
c) lı́m inf An ⊆ lı́m sup An .
n→∞ n→∞
36. Demuestre que el evento
a) lı́m sup An coincide con el conjunto
n→∞
{ω ∈ An para una infinidad de valores de n}.
b) lı́m inf An coincide con el conjunto
n→∞
{ω ∈ An para toda n excepto un número finito de ellas}.
37. Suponga An ⊆ Bn para cada n en N. Demuestre que
a) lı́m sup An ⊆ lı́m sup Bn .
n→∞ n→∞
b) lı́m inf An ⊆ lı́m inf Bn .
n→∞ n→∞
c) lı́m sup An ⊆ lı́m inf Bn .
n→∞ n→∞
38. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) ( lı́m inf An )c = lı́m sup Acn .
n→∞ n→∞
b) ( lı́m sup An )c = lı́m inf Acn .
n→∞ n→∞
c) P ( lı́m inf An ) = 1 − P ( lı́m sup Acn ).
n→∞ n→∞
d) P ( lı́m sup An ) = 1 − P ( lı́m inf Acn ).
n→∞ n→∞
39. Sea {An : n ∈ N} una sucesión de eventos. Demuestre que
a) lı́m An = A ⇐⇒ lı́m Acn = Ac .
n→∞ n→∞
b) lı́m An = A ⇐⇒ lı́m 1An = 1A .
n→∞ n→∞
El sı́mbolo 1A denota la función indicadora del conjunto A. Véase el
apéndice al final del texto para la definición y algunas propiedades de
esta función.
Capı́tulo 1. Espacios de probabilidad 47
40. Sea {an : n ∈ N} una sucesión de números no negativos convergente
al número a ≥ 0. Sea An = [0, an ]. Calcule lı́m inf An y lı́m sup An .
n→∞ n→∞
41. Determine si cada una de las siguientes sucesiones de conjuntos es
convergente.
a) An = (1/n, 2 + (−1)n ) ⊆ R.
b) An = {(x, y) ∈ R2 : x2 + y 2 ≤ (1 + 1/n)n }.
c) An = {(x, y) ∈ R2 : x2 + y 2 ≤ 2 + sen(nπ/2)}.
42. Demuestre que las siguientes sucesiones de eventos no son convergen-
tes.
a) An = ∅ si n es impar, y An = Ω si n es par.
b) An = (0, 1 + (−1)n ) ⊆ R.
43. Suponga que lı́m An = A, y lı́m Bn = B. Determine si la siguiente
n→∞ n→∞
sucesión es convergente.
An si n es impar,
Cn =
Bn si n es par.
44. Encuentre condiciones sobre los eventos A y B para que la siguiente
sucesión de eventos sea convergente.
A si n es impar,
An =
B si n es par.
45. Suponga que lı́m An = A. Demuestre que para cualquier evento B,
n→∞
a) lı́m (An ∩ B) = A ∩ B.
n→∞
b) lı́m (An ∪ B) = A ∪ B.
n→∞
c) lı́m (An − B) = A − B.
n→∞
d) lı́m (An △B) = A△B.
n→∞
48 1.6. Ejercicios
46. Suponga que lı́m An = A y lı́m Bn = B. Diga falso o verdadero.
n→∞ n→∞
Demuestre en cada caso.
a) lı́m lı́m (An ∩ Bm ) = A ∩ B.
n→∞ m→∞
b) lı́m lı́m (An ∪ Bm ) = A ∪ B.
n→∞ m→∞
c) lı́m lı́m (An − Bm ) = A − B.
n→∞ m→∞
d) lı́m lı́m (An △Bm ) = A△B.
n→∞ m→∞
47. Suponga que lı́m An = A y lı́m Bn = B. Diga falso o verdadero.
n→∞ n→∞
Demuestre en cada caso.
a) lı́m (An ∩ Bn ) = A ∩ B.
n→∞
b) lı́m (An ∪ Bn ) = A ∪ B.
n→∞
c) lı́m (An − Bn ) = A − B.
n→∞
d) lı́m (An △Bn ) = A△B.
n→∞
Medidas de probabilidad
48. Determine completamente un espacio de probabilidad (Ω, F , P ) para
el experimento aleatorio de
a) lanzar una moneda equilibrada.
b) lanzar un dado equilibrado.
c) escoger al azar un número real dentro del intervalo unitario [0, 1].
d) extraer dos bolas de una urna en donde hay dos bolas blancas y
dos negras.
e) lanzar una moneda honesta repetidas veces hasta que hayan apa-
recido ambas caras.
Capı́tulo 1. Espacios de probabilidad 49
49. Medida de probabilidad discreta. Sea {xn : n ∈ N} una suce-
sión de números reales y seaP{an : n ∈ N} otra sucesión de números
reales no negativos tal que ∞ n=1 an = 1. Demuestre que la función
P : B(R) → [0, 1] definida de la siguiente forma es una medida de
probabilidad.
∞
X
P (A) = an · 1{n : xn ∈A} (n).
n=1
50. Sean P y Q dos medidas de probabilidad definidas sobre una misma σ-
álgebra. Demuestre que αP + (1 − α)Q es una medida de probabilidad
para cada α en [0, 1].
51. Sea P una medida de probabilidad. Determine si las siguientes fun-
ciones también son medidas de probabilidad:
a) 1 − P . c) P 2 . √ (1 − P ).
e) 4P
b) (1 + P )/2. d) |P |. f) P.
52. Determine si las siguientes funciones son medidas de probabilidad.
a) P (Ω) = 1 y P (A) = 0 para cualquier otro evento A.
b) P (∅) = 0 y P (A) = 1 para cualquier otro evento A.
53. Considere el espacio medible (N, 2N ). Demuestre en cada caso que P
es una medida de probabilidad. Para cada A ∈ 2N defina:
X
a) P (A) = 2/3n .
n∈A
X
b) P (A) = 1/2n .
n∈A
54. Sea Ω = {1, . . . , n}, y considere el espacio medible (Ω, 2Ω ). Investigue
en cada caso si P es una medida de probabilidad. Para cada A ∈ 2Ω
defina:
X 2k
a) P (A) = .
n(n + 1)
k∈A
50 1.6. Ejercicios
Y 1
b) P (A) = (1 − ).
k
k∈A
55. Considere el espacio medible ((0, 1), B(0, 1)). Demuestre en cada caso
que P es una medida de probabilidad. Para cada A ∈ B(0, 1) defina:
Z
a) P (A) = 2x dx.
A
Z
3√
b) P (A) = x dx.
A 2
56. Probabilidad condicional. Sea (Ω, F , P ) un espacio de proba-
bilidad, y sea B un evento con probabilidad estrictamente positiva.
Demuestre que la probabilidad condicional definida para cada A en
F como sigue:
P (A ∩ B)
P (A | B) = ,
P (B)
es una medida de probabilidad. En consecuencia, toda propiedad váli-
da para una medida de probabilidad es también válida para la proba-
bilidad condicional.
57. Sea P una medida de probabilidad, y sean P1 ( · ) = P ( · | B) y P2 ( · ) =
P1 ( · | C), en donde P (B) > 0 y P (C) > 0. Demuestre que para cual-
quier evento A, P2 (A) = P (A | B ∩ C).
58. Demuestre que P (A | B) ≥ 1 − P (Ac )/P (B), en donde P (B) > 0.
59. Sea P una medida de probabilidad definida sobre la σ-álgebra F .
Demuestre que la colección {A ∈ F : P (A) = 0 ó P (A) = 1} es una
sub σ-álgebra de F .
Propiedades elementales
60. Demuestre que P (∅) = 0, sin usar P (Ω) = 1.
61. Demuestre que P (A ∩ B) − P (A)P (B) = P (Ac )P (B) − P (Ac ∩ B).
Capı́tulo 1. Espacios de probabilidad 51
62. Demuestre que
P (A∩B) ≤ mı́n{P (A), P (B)} ≤ P (A) ≤ máx{P (A), P (B)} ≤ P (A∪B).
63. Demuestre que
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
−P (A ∩ B) − P (A ∩ C) − P (B ∩ C)
+P (A ∩ B ∩ C).
64. Demuestre que
P (A ∪ B ∪ C) = P (A) + P (Ac ∩ B) + (Ac ∩ B c ∩ C).
65. Demuestre que
∞
[
P( Ai ) = P (A1 ) + P (Ac1 ∩ A2 ) + P (Ac1 ∩ Ac2 ∩ A3 ) + · · ·
i=1
+P (Ac1 ∩ · · · ∩ Acn−1 ∩ An ) + · · ·
66. Fórmula de inclusión y exclusión. Demuestre que
n
[ n
X X
P( Ai ) = P (Ai ) − P (Ai ∩ Aj )
i=1 i=1 i<j
X
+ P (Ai ∩ Aj ∩ Ak )
i<j<k
− · · · + (−1)n+1 P (A1 ∩ · · · ∩ An ).
67. Demuestre que
n
\ n
X X
P( Ai ) = P (Ai ) − P (Ai ∪ Aj )
i=1 i=1 i<j
X
+ P (Ai ∪ Aj ∪ Ak )
i<j<k
− · · · + (−1)n+1 P (A1 ∪ · · · ∪ An ).
52 1.6. Ejercicios
n
\ n
X
68. Demuestre que P ( Ak ) ≥ 1 − P (Ack ).
k=1 k=1
69. Demuestre que
0 ≤ P (A ∩ B) ≤ P (A) ≤ P (A ∪ B) ≤ P (A) + P (B) ≤ 2.
70. Diga falso o verdadero. Demuestre en cada caso.
a) P (B − A) = P (B) − P (A).
b) P (A ∪ B) = P (A − B) + P (B − A).
c) P (A) > 0 ⇒ P (A ∪ B) > 0.
d) P (A) > 0 ⇒ P (A ∩ B) > 0.
e) P (A) < 1 ⇒ P (A ∪ B) < 1.
f ) P (A) < 1 ⇒ P (A ∩ B) < 1.
71. Diga falso o verdadero. Demuestre en cada caso.
a) P (A) = 0 ⇒ P (A ∪ B) = 0.
b) P (A) = 0 ⇒ P (A ∩ B) = 0.
c) P (A ∪ B) = 0 ⇒ P (A) = 0.
d) P (A ∩ B) = 0 ⇒ P (A) = 0.
e) P (A) = 1 ⇒ P (A ∪ B) = 1.
f ) P (A) = 1 ⇒ P (A ∩ B) = 1.
g) P (A ∪ B) = 1 ⇒ P (A) = 1.
h) P (A ∩ B) = 1 ⇒ P (A) = 1.
72. Diga falso o verdadero. Demuestre en cada caso.
a) P (A ∩ B) ≥ P (A) − P (B c ).
b) P (A − B) = P (A) − P (A ∩ B).
c) P (A ∩ B) ≤ P (A)P (B).
Capı́tulo 1. Espacios de probabilidad 53
d) P (A ∪ B) ≤ P (A) + P (B).
e) P (A | B) ≤ P (A).
f ) P (A | B) ≥ P (A) ⇒ P (B | A) ≥ P (B).
73. Se lanza una moneda tantas veces como indica un dado previamente
lanzado. Tanto la moneda como el dado estan equilibrados. Calcule la
probabilidad de que:
a) se obtengan ambas caras de la moneda igual número de veces.
b) se obtenga una misma cara siempre.
74. En una primera caja se encuentran dos canicas blancas y tres negras,
en una segunda caja hay tres blancas y cinco negras, y en una tercera
caja hay dos blancas y una negra. De la primera caja se extrae al
azar una canica y se deposita en la segunda caja, después se extrae
nuevamente al azar una canica de la segunda caja y se deposita en la
tercera caja. Después de este proceso se obtiene al azar una canica de
la tercera caja, encuentre la probabilidad de que ésta sea blanca.
75. Un dado equilibrado se lanza tres veces consecutivas, y resulta que la
suma de los tres números obtenidos es 11. Encuentre la probabilidad
de que en el primer lanzamiento se haya obtenido un 5.
76. Una primera caja contiene tres canicas blancas y dos negras. Una
segunda caja contiene dos canicas blancas y cuatro negras. Se escoge
una caja al azar y se extrae un canica. Únicamente se conoce que la
canica obtenida es blanca, encuentre la probabilidad de que ésta haya
sido obtenida de la primera caja.
77. Regla del producto. Demuestre que
P (A1 ∩· · ·∩An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩· · ·∩An−1 ).
78. Desigualdad de Bonferroni. Demuestre que
n
[ n
X X
P( Ai ) ≥ P (Ai ) − P (Ai ∩ Aj ).
i=1 i=1 i<j
54 1.6. Ejercicios
79. Desigualdad de Kounias. Demuestre que
n
[ n
X n
X
P( Ai ) ≤ mı́n { P (Ai ) − P (Ai ∩ Aj ) }.
j
i=1 i=1 i=1
i6=j
Continuidad
80. Se lanza una moneda honesta una infinidad de veces. Demuestre que la
probabilidad de que eventualmente cada una de las dos caras aparezca
es uno.
81. Se lanza un dado equilibrado una infinidad de veces. Demuestre que la
probabilidad de que eventualmente cada una de las seis caras aparezca
es uno.
82. Sea A un evento con probabilidad estrictamente positiva. Demuestre
que si se efectúa una infinidad de ensayos independientes del experi-
mento aleatorio, la probabilidad de que nunca ocurra el evento A es
cero.
Independencia de eventos
83. Diga falso o verdadero. Demuestre o proporcione un contraejemplo.
a) A ⊥ A. c) A ⊥ ∅.
b) A ⊥ Ac . d) A ⊥ Ω.
84. ¿Es la independencia de dos eventos una relación de equivalencia?
85. Mediante un contraejemplo demuestre que
a) si A y B son independientes, entonces no necesariamente son
ajenos.
b) si A y B son ajenos, entonces no necesariamente son indepen-
dientes.
Capı́tulo 1. Espacios de probabilidad 55
86. Sean A1 , . . . , An independientes. Demuestre que
n
[ n
Y
P( Ak ) = 1 − [1 − P (Ak )].
k=1 k=1
87. Sea A1 , A2 , . . . una sucesión infinita de eventos. Defina
∞
[ ∞
\
Bn = Ak y Cn = Ak .
k=n k=n
Demuestre que si Bn y Cn son independientes para cada n, entonces
lo eventos lı́mite superior y lı́mite inferior de la sucesión An también
son independientes. En particular, cuando la sucesión An converge al
evento A, entonces A tiene probabilidad cero o uno.
88. Sean A y B independientes. Demuestre que σ{A} y σ{B} son inde-
pendientes.
Lema de Borel-Cantelli
89. Se lanza un dado equilibrado una infinidad de veces. Demuestre que
con probabilidad uno cada una de las seis caras aparece una infinidad
de veces.
90. Sea A un evento con probabilidad positiva. Use el lema de Borel-
Cantelli para demostrar que si se efectúa una infinidad de ensayos
independientes del experimento aleatorio, la probabilidad de que ocu-
rra una infinidad de veces el evento A, es uno.
Capı́tulo 2
Variables aleatorias
En este capı́tulo se estudian los conceptos de variable aleatoria, función de
distribución, función de densidad y esperanza. Se estudian también algunas
distribuciones de probabilidad de variables aleatorias discretas y continuas
particulares. A partir de ahora y en el resto del curso consideraremos como
elemento base un espacio de probabilidad (Ω, F , P ).
2.1. Variables aleatorias
El concepto de variable aleatoria es fundamental en la teorı́a de la probabili-
dad. Una vez que enunciemos su definición, el término aparecerá con mucha
frecuencia a lo largo del curso.
Definición. (Variable aleatoria). Una variable aleatoria real es
una función X : Ω → R tal que para cualquier conjunto Boreliano B, se
cumple que el conjunto X −1 B es un elemento de F .
Gráficamente una variable aleatoria puede representarse como se muestra
en la Figura 2.1.
57
58 2.1. Variables aleatorias
b b
ω X(ω)
Ω R
Figura 2.1: Una variable aleatoria es una función medible de Ω en R.
Esto es, una variable aleatoria (a veces se escribe simplemente v.a.) es una
función de Ω en R tal que la imagen inversa de cualquier conjunto Boreliano
es un elemento de la σ-álgebra del espacio de probabilidad. Esta condición se
conoce como medibilidad en teorı́a de la medida, y se dice entonces que dicha
función es medible respecto de las σ-álgebras F y B(R). En un apéndice
al final del texto aparece una sección que contiene una discusión breve del
concepto de imagen inversa de una función, que para el caso de variables
aleatorias puede ilustrarse gráficamente como se indica en la Figura 2.2.
X −1
X −1 B B
Ω R
Figura 2.2: La imagen inversa de un conjunto de Borel.
Explicamos a continuación la razón técnica por la cual se le pide a una fun-
ción X : Ω → R que cumpla la condición de medibilidad. Recordemos que P
es una medida de probabilidad definida sobre el espacio medible (Ω, F ). Si
X es una variable aleatoria, entonces podemos trasladar la medida de pro-
babilidad P al espacio medible (R, B(R)) del siguiente modo: Si B es un
conjunto Boreliano definimos PX (B) = P (X −1 B), lo cual es posible pues
Capı́tulo 2. Variables aleatorias 59
el conjunto X −1 B es un elemento de F , dominio de definición de P . La
función PX : B(R) → [0, 1] resulta ser una medida de probabilidad, y se le
llama por tanto la medida de probabilidad inducida por la variable aleatoria.
De este modo se construye el espacio de probabilidad (R, B(R), PX ).
Si B es un conjunto Boreliano, se usan los sı́mbolos X −1 B y (X ∈ B)
para denotar el conjunto {ω ∈ Ω : X(ω) ∈ B}. Por ejemplo, el conjunto
{ω ∈ Ω : X(ω) ∈ [0, ∞)} puede ser denotado por X −1 [0, ∞) o (X ∈ [0, ∞)),
o simplemente por (X ≥ 0), incluyendo los paréntesis. Veamos otro ejemplo,
si (a, b) es un intervalo de la recta real, se puede usar el sı́mbolo X −1 (a, b), o
(X ∈ (a, b)), o bien (a < X < b) para denotar el conjunto {ω ∈ Ω : X(ω) ∈
(a, b)}. Para hacer la escritura más corta, a menudo se omite el argumento
ω de una variable X y se omite también el término variable aleatoria para
X asumiendo, en la mayorı́a de las veces, que lo es.
Para comprobar que una función X : Ω → R es realmente una variable alea-
toria, la definición requiere verificar la condición X −1 B ∈ F para cualquier
conjunto Boreliano B. En muy pocos casos tal condición puede comprobarse
de manera tan directa. La siguiente proposición establece que no es necesa-
rio demostrar la condición de medibilidad para cualquier conjunto Boreliano
B, sino que es suficiente tomar intervalos de la forma (−∞, x], para cada x
en R. Este resultado, como uno puede imaginar, es de suma utilidad y lo
usaremos con frecuencia en el resto del capı́tulo.
Proposición. Una función X : Ω → R es una variable aleatoria si, y
sólo si, para cada x en R se cumple que (X ≤ x) ∈ F .
Demostración.
(⇒) Si X es variable aleatoria, entonces claramente se cumple que para
cualquier número real x el conjunto (X ≤ x) es un elemento de F .
(⇐) Ahora suponga que para cada real x, el conjunto (X ≤ x) es un
60 2.1. Variables aleatorias
elemento de F . Sean B y C las colecciones
B = {B ∈ B(R) : X −1 B ∈ F },
y C = {(−∞, x] : x ∈ R}.
Entonces claramente C ⊆ B ⊆ B(R). La primera contención es por
hipótesis, y la segunda es por definición de la colección B. Suponga por
un momento que B es una σ-álgebra de subconjuntos de R. Entonces
B es una σ-álgebra que contiene a C . Por lo tanto σ(C ) = B(R) ⊆ B.
Esto implica que B = B(R), y entonces X es variable aleatoria. Resta
entonces hacer ver que B es efectivamente una σ-álgebra.
a) Primeramente tenemos que R ∈ B, pues R ∈ B(R) y X −1 R =
Ω ∈ F.
b) Sea B ∈ B. Entonces B ∈ B(R) y X −1 B ∈ F . Por lo tanto
B c ∈ B(R) y X −1 B c = (X −1 B)c ∈ F . Es decir, B c ∈ B.
c) Sea B1 , B2 , . . . una sucesión en B. Es decir, para cadaS∞ número
natural Sn, Bn ∈ B(R) y XS −1 B ∈ F . Entonces Bn ∈
n Sn=1
∞ −1 −1 ∞ ∞
B(R) y n=1 X Bn = X n=1 Bn ∈ F . Es decir, n=1 Bn ∈
B.
Además de la condición anterior para demostrar que una función es variable
aleatoria, existen otras condiciones igualmente equivalentes y útiles. Por
ejemplo, X es variable aleatoria si para cada x en R, (X < x) ∈ F , o (X >
x) ∈ F , o (X ≥ x) ∈ F . Cualquiera de estas condiciones es necesaria y
suficiente para que X sea variable aleatoria. También la condición (a < X <
b) ∈ F , para cualquier intervalo (a, b) de R, es necesaria y suficiente para
que X sea variable aleatoria. La demostración de todas estas aseveraciones
es completamente análoga al caso demostrado arriba y se pide desarrollar
los detalles en la sección de ejercicios.
Considere ahora los espacios medibles (Ω, F ) y (R, B(R)). Si X es una
función de Ω en R, entonces se denota por σ(X) a la mı́nima σ-álgebra de
Capı́tulo 2. Variables aleatorias 61
subconjuntos de Ω respecto de la cual X es variable aleatoria. Es decir,
σ(X) = {X −1 B : B ∈ B(R)}.
Es sencillo probar que tal colección de imágenes inversas es efectivamente
una σ-álgebra, y claramente X es variable aleatoria si, y sólo si, σ(X) ⊆ F .
En particular, se dice que una función g : R → R es Borel medible si
g−1 B ∈ B(R), para cada B en B(R).
A continuación se demuestra que algunas operaciones básicas entre varia-
bles aleatorias producen nuevas variables aleatorias. Suponga entonces que
(Ω, F , P ) es un espacio de probabilidad dado. Todas las variables aleatorias
que se consideran a continuación están definidas sobre este mismo espacio
de probabilidad.
Proposición. La función constante X = c es una variable aleatoria.
Demostración. Sea B un elemento cualquiera de B(R). Para la función
constante X = c se tiene que X −1 B = Ω si c ∈ B, y X −1 B = ∅ si c ∈/ B.
En ambos casos el conjunto X −1 B es un elemento de F , por lo tanto X es
variable aleatoria.
Proposición. Si X es variable aleatoria y c es una constante, entonces
cX también es variable aleatoria.
Demostración. Comprobaremos que para cada número real x, la imagen
inversa del conjunto (−∞, x], bajo la función cX, es un elemento de F .
Tenemos tres casos: Si c > 0, entonces el conjunto (cX ≤ x) = (X ≤ x/c) es
un elemento de F , pues X es v.a. Si c < 0, entonces nuevamente el conjunto
(cX ≤ x) = (X ≥ x/c) es un elemento de F pues X es v.a. Finalmente
si c = 0, entonces es claro que cX es la constante cero que es v.a. por la
proposición anterior.
62 2.1. Variables aleatorias
Proposición. Si X y Y son v.a.s, entonces X + Y es variable aleatoria.
Demostración. Probaremos que para cada número real x, el conjunto (X +
Y > x) es un elemento de F . Para ello usaremos la igualdad
[
(X + Y > x) = (X > r) ∩ (Y > x − r). (2.1)
r∈Q
Es claro que a partir de esta igualdad se concluye que el conjunto (X + Y >
x) es un elemento de F , pues tanto X como Y son variables aleatorias,
y la operación de unión involucrada es numerable. Resta entonces demos-
trar (2.1).
(⊆) Sea ω en Ω tal que X(ω) + Y (ω) > x. Entonces X(ω) > x − Y (ω).
Como los números racionales son un conjunto denso en R, tenemos
que existe un número racional r tal que X(ω) > r > x − Y (ω). Por
lo tanto X(ω) > r y Y (ω) > x − r. De aqui se desprende que ω es un
elemento del lado derecho.
S
(⊇) Sea ahora ω un elemento de r∈Q (X > r) ∩ (Y > x − r). Entonces
existe un número racional r0 tal que X(ω) > r0 y Y (ω) > x − r0 .
Sumando obtenemos X(ω) + Y (ω) > x, y por lo tanto ω es también
un elemento del lado izquierdo.
Proposición. Si X y Y son v.a.s, entonces XY es variable aleatoria.
Demostración. Suponga primero el caso particular X = Y . Entonces ne-
cesitamos probar que para todo número real x, el conjunto (X 2 ≤ x) es
un elemento de F . Pero esto es cierto pues (X 2 ≤ x) = ∅ si x < 0, y
√ √
(X 2 ≤ x) = (− x ≤ X ≤ x) si x ≥ 0. En ambos casos, el conjunto
Capı́tulo 2. Variables aleatorias 63
(X 2 ≤ x) es un elemento de F . Para el caso general, X 6= Y , usamos la
fórmula
1
XY = [ (X + Y )2 − (X − Y )2 ].
4
Por lo demostrado antes, el producto XY es efectivamente una variable
aleatoria.
Como consecuencia se cumple que si multiplicamos X por si misma n veces,
entonces X n es variable aleatoria. Por lo tanto toda función polinomial de
una variable aleatoria es también variable aleatoria.
Proposición. Sean X y Y v.a.s con Y 6= 0. Entonces X/Y es variable
aleatoria.
Demostración. Como el producto de variables aleatorias es nuevamente una
variable aleatoria, es suficiente demostrar que 1/Y es variable aleatoria. Para
cualquier número real y > 0 tenemos que
1 1 1
( ≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y Y Y
1 1
= (Y ≥ , Y > 0) ∪ (Y ≤ , Y < 0)
y y
1
= (Y ≥ ) ∪ (Y < 0),
y
que es un elemento de F puesto que Y es variable aleatoria. Por otro lado,
si y < 0 tenemos que
1 1 1
( ≤ y) = ( ≤ y, Y > 0) ∪ ( ≤ y, Y < 0)
Y Y Y
1 1
= (Y ≤ , Y > 0) ∪ (Y ≥ , Y < 0)
y y
1
= ∅ ∪ (Y ≥ , Y < 0)
y
1
= ( ≤ Y < 0).
y
64 2.1. Variables aleatorias
Nuevamente vemos que este conjunto es un elemento de F , puesto que Y
es v.a. Finalmente cuando y = 0 obtenemos una vez mas un elemento de F
pues
1 1 1
( ≤ 0) = ( ≤ 0, Y > 0) ∪ ( ≤ 0, Y < 0)
Y Y Y
= ∅ ∪ (Y < 0)
= (Y < 0).
Proposición. Si X y Y son variables aleatorias, entonces máx{X, Y }
y mı́n{X, Y } también lo son.
Demostración. Para cualquier número real x,
(máx{X, Y } ≤ x) = (X ≤ x, Y ≤ x) = (X ≤ x) ∩ (Y ≤ x).
Análogamente,
(mı́n{X, Y } ≥ x) = (X ≥ x, Y ≥ x) = (X ≥ x) ∩ (Y ≥ x).
Como consecuencia se obtiene que tanto X + = máx{0, X} como X − =
− mı́n{0, X} son variables aleatorias.
Proposición. Si X es variable aleatoria, entonces |X| es variable alea-
toria.
Demostración. Si x ≥ 0, entonces (|X| ≤ x) = (−x ≤ X ≤ x), y si x <
0, entonces (|X| ≤ x) = ∅ ∈ F , de modo que |X| es variable aleatoria.
Alternativamente se puede escribir |X| = X + + X − , y por lo expuesto
anteriormente obtener la misma conclusión.
Capı́tulo 2. Variables aleatorias 65
Se muestra a continuación que en general el recı́proco de la proposición
anterior es falso, esto es, si X : Ω → R es una función tal que |X| es
variable aleatoria, entonces no necesariamente X es variable aleatoria.
Ejemplo. Considere el espacio muestral Ω = {−1, 0, 1} junto con la σ-álgebra
F = {∅, {0}, {−1, 1}, Ω}. Sea X : Ω → R la función identidad X(ω) = ω. Entonces
|X| es variable aleatoria pues para cualquier conjunto Boreliano B,
Ω si 0, 1 ∈ B,
{−1, 1} si 0 ∈/ B y 1 ∈ B,
|X|−1 B =
{0} si 0 ∈ B y1∈ / B,
∅ si 0, 1 ∈
/ B.
Es decir, |X|−1 B es un elemento de F . Sin embargo X no es variable aleatoria
pues el conjunto X −1 {−1} = {−1} no es un elemento de F . ◦
Ahora consideraremos algunas operaciones lı́mite en sucesiones infinitas de
variables aleatorias. Sólo consideraremos variables aleatorias con valores fi-
nitos, de modo que impondremos condiciones sobre la finitud del resultado
al tomar tales operaciones lı́mite.
Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-
rias tales que para cada ω en Ω, los números
sup {X1 (ω), X2 (ω), . . .} e ı́nf {X1 (ω), X2 (ω), . . .}
son finitos. Entonces las funciones sup {Xn } e ı́nf {Xn } son variables
n≥0 n≥0
aleatorias.
Demostración. Para cualquier número real x,
∞
\
( sup Xn ≤ x ) = (Xn ≤ x),
n≥0 n=1
\∞
e ( ı́nf Xn ≥ x ) = (Xn ≥ x).
n≥0
n=1
66 2.1. Variables aleatorias
El siguiente resultado hace uso de las operaciones de lı́mite superior e inferior
para sucesiones numéricas, el lector puede encontrar una revisión breve de
estas operaciones al final del texto.
Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-
rias tales que para cada ω en Ω, los números
lı́m sup {X1 (ω), X2 (ω), . . .} y lı́m inf {X1 (ω), X2 (ω), . . .}
son finitos. Entonces las funciones lı́m sup Xn y lı́m inf Xn son variables
n→∞ n→∞
aleatorias.
Demostración. Esto es consecuencia de la proposición anterior pues
lı́m sup Xn = ı́nf ( sup Xn ),
n→∞ k n≥k
y lı́m inf Xn = sup ( ı́nf Xn ).
n→∞ k n≥k
Finalmente demostramos que el lı́mite de una sucesión de variables aleato-
rias convergente es variable aleatoria.
Proposición. Sea X1 , X2 , . . . una sucesión infinita de variables aleato-
rias tales que lı́m Xn (ω) existe y es finito para cada ω ∈ Ω. Entonces
n→∞
la función lı́m Xn es una variable aleatoria.
n→∞
Demostración. Como el lı́mite de Xn existe, los lı́mites superior e inferior
de esta sucesión coinciden. Entonces por lo demostrado antes, el lı́mite de
Xn es variable aleatoria.
Capı́tulo 2. Variables aleatorias 67
2.2. Función de distribución
Toda variable aleatoria tiene asociada una función llamada de distribución.
En esta sección se define esta importante función y se demuestran algunas
de sus propiedades.
Definición. (Función de distribución). La función de distribución
de una variable aleatoria X es la función F (x) : R → [0, 1], definida
como sigue
F (x) = P (X ≤ x).
Cuando sea necesario especificar la variable aleatoria en cuestión se escribe
FX (x), pero en general se omite el subı́ndice X cuando no haya posibilidad
de confusión. El argumento de la función es la letra minúscula x que puede
tomar cualquier valor real. Por razones obvias a esta función se le conoce
también con el nombre de función de acumulación de probabilidad, o función
de probabilidad acumulada. Observe que la función de distribución de una
variable aleatoria está definida sobre la totalidad del conjunto de números
reales, y siendo una probabilidad, toma valores en el intervalo [0, 1].
La función de distribución es importante pues, como se ilustrará más adelan-
te, contiene ella toda la información de la variable aleatoria y la correspon-
diente medida de probabilidad. Veremos a continuación algunas propiedades
básicas de esta función, en una de las cuales aparece la expresión F (x+),
que significa el lı́mite por la derecha de la función F en el punto x. Apare-
cerá también la expresión F (x−), que significa, de manera análoga, el lı́mite
por la izquierda de la función F en el punto x.
68 2.2. Función de distribución
Proposición. Sea F (x) la función de distribución de una variable alea-
toria. Entonces
1. lı́m F (x) = 1.
x→+∞
2. lı́m F (x) = 0.
x→−∞
3. Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ).
4. F (x) es continua por la derecha, es decir, F (x+) = F (x).
Demostración.
1. Sea x1 , x2 , . . . una sucesión cualquiera de números reales creciente a
infinito, y sean los eventos An = (X ≤ xn ). Entonces {An : n ∈ N} es
una sucesión de eventos creciente cuyo lı́mite es Ω. Por la propiedad
de continuidad
lı́m F (xn ) = lı́m P (An ) = P (Ω) = 1.
n→∞ n→∞
Dado que R es un espacio métrico, lo anterior implica que F (x) con-
verge a uno cuando x tiende a infinito.
2. Sea ahora {xn : n ∈ N} una sucesión cualquiera de números reales
decreciente a menos infinito, y sean los eventos An = (X ≤ xn ).
Entonces {An : n ∈ N} es una sucesión de eventos decreciente al
conjunto vacı́o. Nuevamente por la propiedad de continuidad
lı́m F (xn ) = lı́m P (An ) = P (∅) = 0.
n→∞ n→∞
Por lo tanto, F (x) converge a cero cuando x tiende a menos infinito.
Capı́tulo 2. Variables aleatorias 69
3. Para x1 ≤ x2 ,
F (x1 ) ≤ F (x1 ) + P (x1 < X ≤ x2 )
= P [(X ≤ x1 ) ∪ (x1 < X ≤ x2 )]
= P (X ≤ x2 )
= F (x2 ).
4. Sea x1 , x2 , . . . una sucesión cualquiera de números reales no negativos
y decreciente a cero. Entonces
F (x + xn ) = F (x) + P (x < X ≤ x + xn ),
en donde An = (x < X ≤ x + xn ) es una sucesión de eventos decre-
ciente al conjunto vacı́o. Por lo tanto lı́m F (x + xn ) = F (x). Es decir
n→∞
F (x+) = F (x).
El recı́proco de la proposición anterior también es válido y justifica la im-
portancia de la función de distribución. Se enuncia a continuación este in-
teresante resultado cuya demostración omitiremos y puede encontrarse por
ejemplo en [15].
Proposición. Sea F : R → [0, 1] una función que satisface las cuatro
propiedades de la proposición anterior. Entonces existe un espacio de
probabilidad y una variable aleatoria cuya función de distribución es F .
Por lo tanto basta dar una variable aleatoria con una distribución de pro-
babilidad especı́fica para saber que existe un cierto espacio de probabilidad
sobre el cual dicha variable aleatoria está definida. Este es el punto de vista
que a menudo se adopta en el estudio de las variables aleatorias, quedando
un espacio de probabilidad no especificado en el fondo como elemento base
en todas las consideraciones.
70 2.2. Función de distribución
Se tiene además la siguiente definición general de función de distribución,
no haciendo referencia a variables aleatorias ni a espacios de probabilidad
particulares.
Definición. (Función de distribución). Una función F : R → [0, 1]
es llamada función de distribución si cumple las cuatro propiedades an-
teriores.
A continuación se presentan algunos ejemplos gráficos de funciones de distri-
bución. La primera gráfica corresponde a la función de distribución de una
variable aleatoria discreta, y la segunda muestra el comportamiento tı́pico
de una función de distribución continua.
F (x) F (x)
1 b
1
b bc
b bc
b bc
bc
x x
Figura 2.3: Ejemplos gráficos de funciones de distribución.
También pueden presentarse situaciones como la que se muestra a conti-
nuación, y que corresponden a variables aleatorias mixtas. La definición de
variable aleatoria discreta, continua y mixta aparece en la siguiente sección.
Se demuestran ahora algunas otras propiedades que establecen la forma de
calcular probabilidades usando la función de distribución.
Capı́tulo 2. Variables aleatorias 71
F (x)
1
b
b bc
bc
Figura 2.4: Otro ejemplo gráfico de función de distribución.
Proposición. Sea X una variable aleatoria con función de distribución
F . Para cualesquiera números reales a < b,
1. P (X < a) = F (a−).
2. P (X = a) = F (a) − F (a−).
3. P (a < X ≤ b) = F (b) − F (a).
4. P (a ≤ X ≤ b) = F (b) − F (a−).
5. P (a < X < b) = F (b−) − F (a).
6. P (a ≤ X < b) = F (b−) − F (a−).
Demostración.
1. Sea x1 , x2 , . . . una sucesión de números reales positivos y decreciente
a cero. Sea An el evento (X ≤ a − xn ). Entonces {An : n ∈ N} es una
sucesión de eventos decreciente al evento (X < a). Por la propiedad
de continuidad
P (X < a) = lı́m P (An )
n→∞
= lı́m F (a − xn )
n→∞
= F (a−).
72 2.2. Función de distribución
2. Simplemente se escribe
P (X = a) = P (X ≤ a) − P (X < a)
= F (a) − F (a−).
3.- 6. Estas igualdades se sigue directamente de las dos primeras.
Observe que como F es una función no decreciente y continua por la derecha,
la probabilidad P (X = x) es igual a F (x)−F (x−), que representa el tamaño
del salto o discontinuidad de la función de distribución en el punto x, como
se muestra en la Figura 2.5.
F (x)
1
P (X = x) = F (x) − F (x−)
bc
x
Figura 2.5: La probabilidad P (X = x) es el tamaño del salto de F en el punto x.
En consecuencia, cuando F es una función continua y para a < b,
F (b) − F (a) = P (a < X ≤ b)
= P (a ≤ X ≤ b)
= P (a < X < b)
= P (a ≤ X < b).
Es decir, cuando F es una función continua, incluir o excluir los extremos
de un intervalo no afecta el valor de la probabilidad de dicho intervalo. Por
Capı́tulo 2. Variables aleatorias 73
lo tanto, para cualquier número real x, la probabilidad del evento (X = x)
es cero. Finalizamos esta sección con un resultado interesante cuya prueba
es sorprendentemente simple.
Proposición. Toda función de distribución tiene a lo sumo un número
numerable de discontinuidades.
Demostración. Sea D el conjunto de puntos de discontinuidad de una fun-
ción de distribución F (x). Para cada número natural n defina los subcon-
juntos
1 1
Dn = {x ∈ D : < F (x) − F (x−) ≤ }.
n+1 n
S
Cada conjunto Dn tiene a lo sumo n elementos. Como D = ∞ n=1 Dn , se
concluye que D es numerable.
2.3. Tipos de variables aleatorias
Las variables aleatorias se clasifican en varios tipos dependiendo de las ca-
racterı́sticas de la correspondiente función de distribución. Al menos existen
tres tipos: discretas, continuas, y mezclas de las dos anteriores. Veamos su
definición.
74 2.3. Tipos de variables aleatorias
Definición. (Variable aleatoria discreta). La variable aleatoria
X se llama discreta si su correspondiente función de distribución F (x)
es una función constante por pedazos. Sean x1 , x2 , . . . los puntos de
discontinuidad de F (x). En cada uno de estos puntos el tamaño de la
discontinuidad es P (X = xi ) = F (xi ) − F (xi −) > 0. A la función f (x)
que indica estos incrementos se le llama función de probabilidad de X,
y se define como sigue
P (X = x) si x = x1 , x2 , . . .
f (x) = (2.2)
0 otro caso.
La función de distribución se reconstruye de la forma siguiente
X
F (x) = f (u).
u≤x
En este caso se dice también que la función de distribución es discreta,
además la función de probabilidad f (x) siempre existe, y se le llama también
función de masa de probabilidad. También se acostumbra usar el término
función de densidad, como una analogı́a con el caso de variables aleato-
rias continuas definidas más adelante. Cuando sea necesario especificarlo se
escribe fX (x) en lugar de f (x).
Observe que la función de probabilidad
P f (x) es una función no negativa
que suma uno en el sentido i f (xi ) = 1. Recı́procamente, toda función
de la forma (2.2) que cumpla estas dos propiedades se le llama función
de probabilidad, sin que haya necesariamente una variable aleatoria de por
medio. Veamos ahora el caso continuo.
Definición. (Variable aleatoria continua). La variable aleatoria
X se llama continua si su correspondiente función de distribución es una
función continua.
En tal caso también se dice que la distribución es continua. Las distribu-
Capı́tulo 2. Variables aleatorias 75
ciones continuas se clasifican en distribuciones absolutamente continuas y
distribuciones singulares de la siguiente forma.
Definición. (Variable aleatoria absolutamente continua). La
variable aleatoria continua X con función de distribución F (x) se llama
absolutamente continua, si existe una función no negativa e integrable
f tal que para cualquier valor de x se cumple
Z x
F (x) = f (u) du. (2.3)
−∞
En tal caso a la función f (x) se le llama función de densidad de X.
Aún cuando exista una función no negativa e integrable f que cumpla (2.3),
ésta puede no ser única, pues basta modificarla en un punto para que sea
ligeramente distinta pero aún ası́ seguir cumpliendo (2.3). A pesar de ello,
nos referiremos a la función de densidad como si ésta fuera única, y ello
se justifica por el hecho de que las probabilidades son las mismas, ya sea
usando una función de densidad o modificaciones de ella que cumplan (2.3).
Es claro que la función de densidad de una variable aleatoria absolutamen-
te continua es no negativa y su integral sobre toda la recta real es uno.
Recı́procamente, toda función f (x) no negativa que integre uno en R se
llama función de densidad. Si X es absolutamente continua con función de
distribución F (x) y función de densidad continua f (x), entonces el teore-
ma fundamental del cálculo establece que, a partir de (2.3), F ′ (x) = f (x).
Además, la probabilidad de que X tome un valor en el intervalo (a, b) es
el área bajo la función de densidad sobre dicho intervalo. Esto se ilustra
en la Figura 2.6, la probabilidad es la misma si se incluyen o excluyen los
extremos del intervalo.
Pueden construirse ejemplos de variables aleatorias continuas que no tienen
función de densidad, es decir, que no existe una función f no negativa e in-
tegrable que cumpla (2.3) para cualquier número real x. En tales situaciones
se dice que la distribución es singular.
76 2.3. Tipos de variables aleatorias
f (x)
Z b
P (X ∈ (a, b)) = f (x) dx
a
x
a b
Figura 2.6: La probabilidad como el área bajo la función de densidad.
Definición. (Variable aleatoria singular). La variable aleatoria
continua X, o su correspondiente función de distribución F (x), se llama
singular si F ′ (x) = 0 casi seguramente.
El término “casi seguramente” que aparece en esta definición se refiere a que
la igualdad se cumple en todos los puntos x excepto en un conjunto cuya
medida de Lebesgue es cero. Las distribuciones singulares son un poco más
delicadas de estudiar y no haremos mayor énfasis en ellas. La distribución de
Cantor es un ejemplo de este tipo de distribuciones y se construye mediante
un proceso lı́mite. Los detalles pueden pueden encontrarse en [13] o [19].
Definición. (Variable aleatoria mixta). Una variable aleatoria que
no es discreta ni continua se llama variable aleatoria mixta.
No es difı́cil encontrar situaciones en donde la variable aleatoria en estudio
es mixta, el siguiente ejemplo es una muestra de ello.
Ejemplo (Una variable aleatoria que no es discreta ni continua). Sea
X una variable aleatoria con función de distribución
(
1 − e−x si x > 0,
FX (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 77
Como la función FX (x) es continua, entonces la variable aleatoria X es continua.
Sea M > 0 una constante. Las gráficas de las funciones de distribución de las
variables X y la constante M (vista como variable aleatoria), se muestran en la
Figura 2.7.
FX (x) FM (x)
1 1 b
x bc
x
M
Figura 2.7: Funciones de distribución de la variable X y la constante M .
Sea Y = mı́n{X, M }. Puede comprobarse que la función de distribución de Y es
0
si y ≤ 0,
FY (y) = 1 − e−y si 0 < y < M,
1 si y ≥ M,
con gráfica como en la Figura 2.8.
FY (y)
1 b
bc
y
M
Figura 2.8: Función de distribución de la variable Y = mı́n{X, M }.
Es claro que esta función de distribución no es constante por pedazos pues es cre-
ciente en el intervalo (0, M ), por lo tanto no es discreta, y tampoco es continua
pues tiene una discontinuidad en y = M . Por lo tanto Y es una variable aleatoria
78 2.3. Tipos de variables aleatorias
que no es discreta ni continua. ◦
Finalmente enunciamos un resultado general cuya demostración puede en-
contrarse en [7] o [13].
Proposición. Toda función de distribución F (x) se puede escribir como
una combinación lineal convexa de una función de distribución discreta
F d (x) y otra continua F c (x), es decir, admite la siguiente representación
F (x) = αF d (x) + (1 − α)F c (x),
en donde 0 ≤ α ≤ 1.
En todos los casos que consideraremos en este texto la distribución continua
de esta descomposición será absolutamente continua. En el caso general, es-
ta distribución continua puede a su vez escribirse como otra combinación
lineal convexa entre una distribución absolutamente continua y una distri-
bución continua singular. Esto lleva al resultado general de que cualquier
distribución puede escribirse como una combinación lineal convexa de los
tres tipos básicos de distribuciones.
Ejemplo. Considere nuevamente la función de distribución de la variable Y =
mı́n{X, M } analizada en el ejemplo anterior. Hemos visto que esta distribución no
es discreta ni continua, sin embargo puede descomponerse en la combinación lineal
convexa
FY (y) = e−M F d (y) + (1 − e−M )F c (y),
en donde F d (y) es la distribución discreta de la variable constante M , y F c (y) es
la distribución continua
0 si y ≤ 0,
−y
1 − e
FYc (y) = si 0 < y < M,
−M
1−e
1 si y ≥ M.
◦
Capı́tulo 2. Variables aleatorias 79
Igualdad de variables aleatorias
Dos variables aleatorias X y Y son estrictamente iguales si para cada ω se
cumple X(ω) = Y (ω). Existen, sin embargo, otras formas más débiles de
igualdad que enunciaremos a continuación.
Definición. (Igualdad de variables aleatorias). Se dice que dos
variables aleatorias X y Y son
c.s.
a) iguales casi seguramente, y se escribe X = Y c.s., o bien X = Y ,
si se cumple que P (X = Y ) = 1. Más generalmente, un evento
ocurre casi seguramente si su probabilidad es uno.
d
b) iguales en distribución, y se escribe X = Y , si sus correspondientes
funciones de distribución coinciden, es decir, si FX (x) = FY (x)
para cada número real x.
Es interesante observar que la igualdad casi segura es más fuerte que la
igualdad en distribución, es decir, si X y Y son iguales casi seguramente,
entonces son iguales en distribución. Sin embargo, si X y Y tienen la misma
distribución, entonces no necesariamente son iguales casi seguramente. A
menos que se indique lo contrario, cuando aparezca una expresión de igual-
dad entre variables aleatorias, se considera que la igualdad es válida en el
sentido fuerte, es decir, casi seguro.
Ejercicio. Sean X y Y dos variables aleatorias. Demuestre que (X = Y ) es un
evento. En consecuencia tiene sentido calcular la probabilidad de tal conjunto. ◦
Ejercicio. Demuestre que
d
a) si X = Y c.s., entonces X = Y .
d
b) si X = Y , entonces no necesariamente X = Y c.s. Considere por ejemplo X
tal que P (X = −1) = P (X = 1) = 1/2, y defina Y = −X.
80 2.4. Integral de Riemann-Stieltjes
Ejercicio. Demuestre que si X = 0 c.s., entonces E(X) = 0. ◦
2.4. Integral de Riemann-Stieltjes
En esta sección se define la integral de Riemann-Stieltjes. Esta es una inte-
gral de la forma
Z b
h(x) dF (x),
a
en donde las funciones h(x) y F (x) deben cumplir ciertas condiciones pa-
ra que la integral tenga sentido y esté bien definida. Esta integral es una
generalización de la integral usual de Riemann. Al integrando h(x) se le
pide inicialmente que sea una función acotada en el intervalo (a, b], aun-
que después se omitirá esta condición. A la función integradora F (x) se le
pide que sea continua por la derecha, monótona no decreciente y tal que
F (∞) − F (−∞) < M , para algún número M > 0. Observe que F (x) debe
cumplir propiedades semejantes a las de una función de distribución, y de
hecho la notación es la misma. Esto no es coincidencia pues usaremos las
funciones de distribución como funciones integradoras.
Presentamos a continuación la definición de la integral de Riemann-Stieltjes
bajo las condiciones arriba señaladas. En [15] puede encontrarse una expo-
sición más completa y rigurosa de esta integral. Sea {a = x0 < x1 < · · · <
xn = b} una partición finita del intervalo (a, b], y defina
h(xi ) = sup {h(x) : xi−1 < x ≤ xi },
y h(xi ) = ı́nf {h(x) : xi−1 < x ≤ xi }.
Capı́tulo 2. Variables aleatorias 81
Se define la suma superior e inferior de Riemann-Stieltjes como sigue
n
X
Sn = h̄(xi ) [ F (xi ) − F (xi−1 ) ],
i=1
Xn
y Sn = h(xi ) [ F (xi ) − F (xi−1 ) ].
i=1
Ahora se toma el lı́mite cuando n tiende a infinito de tal forma que la
longitud máx{|xi − xi−1 | : 1 ≤ i ≤ n} tienda a cero. Si sucede que
−∞ < lı́m S n = lı́m S n < ∞,
n→∞ n→∞
entonces a este valor común se le llama la integral de Riemann-Stieltjes de
la función h(x) respecto de la función F (x) sobre el intervalo (a, b], y se le
denota por
Z b
h(x) dF (x),
a
Cuando la función h(x) no es acotada se hace uso de la función auxiliar
−N
si h(x) < −N,
hN (x) = h(x) si |h(x)| ≤ N,
N si h(x) > N.
Y entonces se define
Z b Z b
h(x) dF (x) = lı́m hN (x) dF (x),
a N →∞ a
cuando este lı́mite existe. Se puede extender la definición de esta integral
de la siguiente forma
Z ∞ Z b
h(x) dF (x) = lı́m h(x) dF (x),
−∞ a,b→∞ a
cuando el lı́mite del lado derecho exista y esté bien definido.
82 2.4. Integral de Riemann-Stieltjes
La integral de Riemann-Stieltjes tiene varias propiedades semejantes a la
integral de Riemann, enunciaremos a continuación algunas de ellas. Prime-
ramente es lineal tanto en el integrando como en el integrador, es decir, si
α es constante, entonces
Z b Z b Z b
a) (αh1 (x) + h2 (x)) dF (x) = α h1 (x) dF (x) + h2 (x) dF (x).
a a a
Z b Z b Z b
b) h(x) d(αF1 (x) + F2 (x)) = α h(x) dF1 (x) + h(x) dF2 (x).
a a a
Cuando h(x) tiene primera derivada continua se cumple la fórmula
Z b Z b
c) h(x) dF (x) = h(b)F (b) − h(a)F (a) − F (x)h′ (x) dx.
a a
De particular importancia en la teorı́a de la probabilidad son los siguientes
dos casos particulares. Cuando F (x) es diferenciable se tiene la igualdad
Z b Z b
d) h(x) dF (x) = h(x)F ′ (x) dx.
a a
Es decir, integrar respecto de una función de distribución absolutamente
continua se reduce a efectuar una integral de Riemann. El otro caso in-
teresante ocurre cuando h(x) es continua y F (x) es constante excepto en
los puntos x1 , x2 , . . ., en donde la función tiene saltos positivos de tamaño
p(x1 ), p(x2 ), . . . respectivamente. En este caso y suponiendo convergencia,
Z b ∞
X
e) h(x) dF (x) = h(xi ) p(xi ).
a i=1
Esto significa que integrar respecto de la función de distribución de una
variable aleatoria discreta se reduce a efectuar una suma. Finalmente enun-
ciamos la propiedad que ilustra el hecho de que la integral de Riemann es
Capı́tulo 2. Variables aleatorias 83
un caso particular de la integral de Riemann-Stieltjes. Cuando F (x) = x se
cumple
Z b Z b
f) h(x) dF (x) = h(x) dx.
a a
En la siguiente sección usaremos las funciones de distribución como fun-
ciones integradoras. Como toda función de distribución F (x) se puede des-
componer en una suma convexa αF d (x) + (1 − α)F c (x), en donde F d (x) es
discreta y F c (x) es continua, entonces
Z b Z b Z b
d
h(x) dF (x) = α h(x) dF (x) + (1 − α) h(x) dF c (x).
a a a
En algunos casos usaremos también la integral de Riemann-Stieltjes en va-
rias dimensiones con definición análoga al caso dimensional, es decir, sean
h(x, y) y F (x, y) funciones de dos variables, sea {a = x0 < x1 < · · · < xn =
b} una partición de (a, b] y sea {c = y0 < y1 < · · · < ym = d} una partición
de (c, d], entonces se define
Z bZ d n X
X m
h(x, y) dF (x, y) = lı́m h(xi , yj ) ∆F (xi , yj ),
a c n,m
i=1 j=1
en donde ∆F (xi , yj ) es el “incremento” de F en el rectángulo (xi−1 , xi ] ×
(yj−1 , yj ]. Por ahora no es claro cómo definir este incremento pero retomare-
mos este concepto una vez que se haya definido a la función de distribución
en dimensiones mayores.
2.5. Caracterı́sticas numéricas
Se estudian a continuación algunas caracterı́sticas numéricas asociadas a
variables aleatorias. En particular, se definen los conceptos de esperanza,
varianza y más generalmente los momentos de una variable aleatoria. Para
ello haremos uso de la integral de Riemann-Stieltjes mencionada antes.
84 2.5. Caracterı́sticas numéricas
Esperanza
La esperanza de una variable aleatoria es un número que representa el pro-
medio ponderado de sus posibles valores, se calcula como se indica a conti-
nuación.
Definición. (Esperanza). Sea X con función de distribución F (x).
La esperanza de X, denotada por E(X), se define como el número
Z ∞
E(X) = x dF (x),
−∞
cuando
R∞ esta integral sea absolutamente convergente, es decir, cuando
−∞ |x| dF (x) < ∞, y en tal caso se dice que X es integrable, o que
tiene esperanza finita.
A la esperanza se le conoce también con el nombre de media, valor esperado,
valor promedio o valor medio, y en general se usa la letra griega µ (mu) para
denotarla. En la teorı́a de la medida [5] [14] [28] se define la esperanza de una
variable aleatoria o función medible X mediante una integral más general
llamada integral de Lebesgue, y se denota por
Z
X(ω) dP (ω).
Ω
En algunas ocasiones usaremos esta expresión para tener compatibilidad en
notación con la teorı́a general.
Cuando X es discreta con función de probabilidad
P f (x), su esperanza, si
existe, se calcula como sigue E(X) = x xf (x). Si X es absolutamente
continua Rcon función de densidad f (x), entonces su esperanza, si existe, es
∞
E(X) = −∞ xf (x) dx.
Ejemplos.
a) Sea X con valores en el conjunto {1, 2, . . .}, y con función de
Pprobabilidad
∞
f (x) = P (X = x) = 1/2x, para x ≥ 1. Entonces E(X) = x=1 xf (x) =
Capı́tulo 2. Variables aleatorias 85
P∞ x
x=1 x/2 = 2.
b) Sea X continua con función de densidad f (x) = 2x, para 0 < x < 1. Entonces
R∞ R1
E(X) = −∞ xf (x) dx = 0 x 2x dx = 2/3.
La integral o suma arriba mencionados pueden no existir y en ese caso se
dice que la variable aleatoria no tiene esperanza finita. El siguiente ejercicio
contiene un par de ejemplos que ilustran esta situación. Véase también el
ejercicio 152.
Ejercicio. Demuestre que no existe la esperanza de X cuando su función de
probabilidad o de densidad es
1
a) f (x) = , para x = 1, 2, . . .
x(x + 1)
b) f (x) = 1/x2 , para x > 1.
Ejemplo. Sea X una variable aleatoria con función de distribución
0 si x < 0,
x/4
si 0 ≤ x < 1,
F (x) = 2/4 si 1 ≤ x < 2,
3/4 + x/4 si 2 ≤ x < 3,
1 si x ≥ 3.
La forma de esta función puede apreciarse más fácilmente a través de su gráfica,
la cual se muestra en la Figura 2.9.
De acuerdo a las propiedades de la integral de Riemann-Stieltjes, la esperanza de
X es entonces
Z ∞
E(X) = xdF (x)
−∞
Z 1 Z 3
1 2 1 3 2 1
= x· dx + 1 · ( − ) + 2 · ( − ) + x· dx.
0 4 4 4 4 4 2 4
86 2.5. Caracterı́sticas numéricas
F (x)
1
3/4 b
2/4 b bc
1/4 bc
x
1 2 3
Figura 2.9: Ejemplo de una función de distribución.
Después de algunos cálculos se encuentra que la esperanza es 15/4. Observe la for-
ma mixta en la que esta integral es calculada: en las partes crecientes se calcula
como si fuera una distribución continua, después se añaden los puntos de disconti-
nuidad ponderados por el tamaño del salto. ◦
Con frecuencia surge el problema de calcular esperanzas de funciones de
variables aleatorias, es decir, si X es una variable aleatoria y g : R → R
es una función Borel medible, entonces g(X) es una variable aleatoria y el
problema es encontrar su esperanza. Usando directamente la definición, la
esperanza de g(X) se calcula del siguiente modo:
Z ∞
E[g(X)] = x dFg(X) (x),
−∞
pero ello requiere encontrar primero la distribución de g(X), lo cual puede
no ser fácil en muchos casos. Afortunadamente se cuenta con el siguiente re-
sultado que establece una forma muy conveniente de calcular la esperanza de
g(X), sin conocer su distribución, pero suponiendo conocida la distribución
de X.
Capı́tulo 2. Variables aleatorias 87
Teorema. (Esperanza de una función de una v.a.) Sea X con
función de distribución FX (x), y sea g : R → R una función Borel
medible tal que g(X) tiene esperanza finita. Entonces
Z ∞
E[g(X)] = g(x) dFX (x).
−∞
La demostración de este resultado en general no es sencilla y la omitiremos,
aunque un camino cómodo que puede adoptarse es aceptar la fórmula an-
terior como la definición de la esperanza de g(X). En particular, cuando la
función g es la identidad, se recupera la definición básica de esperanza. Por
otro lado, cuando X es discreta, la demostración del teorema resulta no ser
complicada.
Ejercicio. Sea X una variable aleatoria discreta con valores en el conjunto
{x1 , x2 , . . .}, y sea g : R → R una función Borel medible tal que g(X) tiene
esperanza finita. Demuestre que
∞
X
E[g(X)] = g(xi )P (X = xi ).
i=1
Se establecen a continuación algunas propiedades de la esperanza.
88 2.5. Caracterı́sticas numéricas
Proposición. (Propiedades de la esperanza). Sean X y Y con
esperanza finita, y sea c una constante. Entonces
1. E(c) = c.
2. E(cX) = cE(X).
3. Si X ≥ 0, entonces E(X) ≥ 0.
4. Si X ≤ Y , entonces E(X) ≤ E(Y ).
5. E(X + Y ) = E(X) + E(Y ).
Las demostraciones de las primeras cuatro propiedades son sencillas pues
se siguen directamente de la definición. La última propiedad es fácilmen-
te demostrable en el caso discreto. El caso general será demostrado más
adelante.
Ejercicio. Sean X y Y discretas ambas con esperanza finita. Demuestre direc-
tamente que E(X + Y ) = E(X) + E(Y ). ◦
Proposición. Sea X con función de distribución F (x), la cual admite
la descomposición
F (x) = αF d (x) + (1 − α)F c (x),
en donde α ∈ [0, 1], F d (x) es una función de distribución discreta, y
F c (x) es una función de distribución continua. Sea Xd con distribución
F d (x), y sea Xc con distribución F c (x). Entonces X tiene esperanza
finita si, y sólo si, tanto Xd como Xc tienen esperanza finita, y en tal
caso,
E(X) = αE(Xd ) + (1 − α)E(Xc ).
Capı́tulo 2. Variables aleatorias 89
Este resultado es inmediato de demostrar usando la propiedad de linealidad
de la integral de Riemann-Stieltjes respecto de la función integradora.
Varianza
La varianza de una variable aleatoria es una medida del grado de dispersión
de los diferentes valores tomados por la variable, su definición es la siguiente.
Definición. (Varianza). La varianza de X, denotada por Var(X), se
define como el número no negativo
Var(X) = E (X − E(X))2 ,
cuando esta esperanza existe.
Cuando X es discreta con función de probabilidad f (x) y esperanza P finita
µ, la varianza de X, cuando existe, se calcula como sigue Var(X) = x (x −
µ)2 f (x). Si X es absolutamente continua con función de densidad f (x) y
Resperanza
∞
finita µ, entonces la varianza de X, cuando existe, es Var(X) =
2
−∞ (x − µ) f (x) dx.
La varianza se denota regularmente por el sı́mbolo σ 2 (sigma cuadrada). A
la raı́z cuadrada positiva de Var(X) se le llama desviación estándar, y se le
denota naturalmente por σ. Nuevamente hay casos en los que la varianza
no es finita, y en esa situaciones se dice que la variable aleatoria no tiene
varianza. Observe que para calcular la varianza se necesita conocer primero
la esperanza. Enunciamos a continuación algunas propiedades de la varianza.
90 2.5. Caracterı́sticas numéricas
Proposición. (Propiedades de la varianza). Sean X y Y con va-
rianza finita, y sea c una constante. Entonces
1. Var(X) ≥ 0.
2. Var(c) = 0.
3. Var(c X) = c2 Var(X).
4. Var(X + c) = Var(X).
5. Var(X) = E(X 2 ) − E 2 (X).
6. En general, Var(X + Y ) 6= Var(X) + Var(Y ).
La demostración de estas propiedades es sencilla pues todas ellas, excepto la
última, se siguen directamente de la definición y de la propiedad lineal de la
esperanza. Para la última propiedad puede tomarse Y = X, con Var(X) 6= 0,
y verificarse la no igualdad. Otras propiedades de la varianza aparecen más
adelante.
Ejercicio. Demuestre que Var(X) = E(X(X − 1)) − E(X)(E(X) − 1). ◦
Momentos
Los momentos de una variable aleatoria son números que representan algu-
nas caracterı́sticas de la distribución de probabilidad asociada. Bajo ciertas
condiciones el conjunto de momentos determinan de manera única a la dis-
tribución de probabilidad.
Capı́tulo 2. Variables aleatorias 91
Definición. (Momentos). Sea X una variable aleatoria con esperanza
µ y sea n un número natural. Cuando existe, el número
1. E(X n ) es el n-ésimo momento de X.
2. E|X|n es el n-ésimo momento absoluto de X.
3. E[(X − µ)n ] es el n-ésimo momento central de X.
4. E|X − µ|n es el n-ésimo momento central absoluto de X.
5. E[X(X − 1) · · · (X − n + 1)] es el n-ésimo momento factorial de X.
Observe que el primer momento es la esperanza, y el segundo momento
central es la varianza. En algunos textos al n-ésimo momento se le denota
por µ′n , mientras que el n-ésimo momento central es µn . En el capı́tulo
sobre funciones generadoras se estudian ciertas funciones asociadas a las
distribuciones de probabilidad, y a través de las cuales los momentos de
una variable aleatoria pueden ser encontrados, cuando existen, de manera
más eficiente.
El problema de los momentos consiste en determinar condiciones necesarias
y suficientes para que los momentos de una variable aleatoria determinen de
manera única su distribución de probabilidad. Por ejemplo, puede demos-
trarse que si X es tal que los números E(X), E(X 2 ), . . . son todos finitos y
si se cumple que la serie
∞ n
X t
E(X n )
n!
n=0
es absolutamente convergente para algún t > 0, entonces la sucesión de mo-
mentos determina de manera única a la distribución de X. Las condiciones
mencionadas son suficientes pero no necesarias.
92 2.5. Caracterı́sticas numéricas
Cuantiles
Definición. (Cuantil). Sea p un número real cualquiera en el intervalo
unitario (0, 1). Se le llama cuantil de orden p de una variable aleatoria X
o de su distribución, a cualquier número xp que cumpla las condiciones
P (X ≤ xp ) ≥ p,
y P (X ≥ xp ) ≥ 1 − p.
Es decir, el cuantil de orden p es aquel número que acumula a su izquierda
una probabilidad mayor o igual a p, y al mismo tiempo acumula a su derecha
una probabilidad de por lo menos 1 − p. En general este número no es
necesariamente único. Sin embargo, cuando la correspondiente función de
distribución es estrictamente creciente, se cumple que el cuantil de cualquier
orden es único.
A los cuantiles de orden 1/4, 1/2 y 3/4 se les llama también cuartiles. En
particular al cuantil de orden 1/2 se le llama mediana. Es decir, la mediana
es aquel número m que cumple las desigualdades
P (X ≤ m) ≥ 1/2,
y P (X ≥ m) ≥ 1/2.
La mediana de una variable aleatoria es una medida de tendencia central
que permite dividir en dos partes iguales a la distribución de probabilidad
cuando ésta es continua y estrictamente creciente. Usando el concepto de
mediana ejemplificaremos la posible no unicidad de los cuantiles.
Ejemplo. Sea X es una variable aleatoria discreta tal que P (X = 1) = 1/2, y
P (X = 0) = 1/2. Cualquier número en el intervalo [0, 1] es una mediana de X. ◦
Capı́tulo 2. Variables aleatorias 93
Moda
La moda es otra caracterı́stica numérica de las variables aleatorias, y se
define únicamente para distribuciones discretas o absolutamente continuas
de la siguiente forma.
Definición. (Moda). La moda de una variable aleatoria o de su dis-
tribución, discreta o absolutamente continua, es aquel punto donde la
función de densidad tiene un máximo local.
Por ejemplo, si X es una variable aleatoria discreta con valores x1 < x2 <
x3 < · · · , y con probabilidades respectivas p1 , p2 , p3 , . . ., entonces X tiene
una moda en el punto xk si pk−1 ≤ pk ≥ pk+1 . Es evidente que pueden
existir varias modas para una misma variable aleatoria. Cuando la moda es
única se dice que la distribución es unimodal, y cuando hay varias modas se
dice que es multimodal.
2.6. Distribuciones discretas
En esta sección se estudian algunas distribuciones discretas de probabilidad
de uso común. Estas distribuciones son ejemplos particulares de medidas
de probabilidad concentradas en un conjunto discreto de números reales.
Se presentan estos ejemplos sin hacer mayor énfasis en las aplicaciones de
los modelos. En el Apéndice A, al final del libro, aparecen algunas otras
distribuciones de probabilidad.
Distribución uniforme discreta. La variable X tiene una distribución
uniforme sobre el conjunto {x1 , . . . , xn } si la probabilidad de que X tome
cualquiera de estos valores es 1/n. Esta distribución surge en espacios de
probabilidad equiprobables, esto es, en situaciones en donde se tienen n re-
sultados diferentes y todos ellos tienen la misma probabilidad de ocurrir.
Los juegos de loterı́a justos son un ejemplo donde puede aplicarse esta dis-
94 2.6. Distribuciones discretas
tribución. Se escribe X ∼ unif{x1 , . . . , xn }, y su función de probabilidad
es (
1/n si x = x1 , . . . , xn ,
f (x) =
0 otro caso.
Por ejemplo, la función de probabilidad uniforme sobre el conjunto {1, . . . , 5}
tiene gráfica como en la Figura 2.10.
f (x)
1 b b b b b
5
bc bc bc bc bc
x
1 2 3 4 5
Figura 2.10: Función de probabilidad unif{1, . . . , 5}.
Es fácil ver que, en el caso general,
n
1X
E(X) = xi ,
n
i=1
n
1X
y Var(X) = (xi − E(X))2 .
n
i=1
Distribución Bernoulli. Un ensayo Bernoulli es un experimento alea-
torio con únicamente dos posibles resultados, llamados genéricamente éxito
y fracaso, y con probabilidades respectivas p y 1 − p. Se define la variable
aleatoria X como aquella función que lleva el resultado éxito al número 1,
y el resultado fracaso al número 0. Entonces se dice que X tiene una dis-
tribución Bernoulli con parámetro p ∈ (0, 1). Se escribe X ∼ Ber(p) y la
Capı́tulo 2. Variables aleatorias 95
correspondiente función de probabilidad es
1−p si x = 0,
f (x) = p si x = 1,
0 otro caso,
cuya gráfica es como en la Figura 2.11.
f (x)
0.7 b
0.3 b
bc bc
x
0 1
Figura 2.11: Función de probabilidad Ber(p) con p =0.7.
Es sencillo verificar que E(X) = p, y Var(X) = p(1 − p). En particular, si A
es un evento con probabilidad p, entonces la función indicadora 1A es una
variable aleatoria con distribución Ber(p).
Distribución binomial. Suponga que se realizan n ensayos independien-
tes Bernoulli en donde la probabilidad de éxito en cada uno de ellos es
p ∈ (0, 1). El espacio muestral de este experimento consiste de todas las
posibles sucesiones de longitud n de éxitos y fracasos. Usando el principio
multiplicativo, es fácil ver que este conjunto tiene 2n elementos. Si ahora se
define la variable aleatoria X como el número de éxitos en cada una de estas
sucesiones, entonces X toma los valores 0, 1, . . . , n, y se dice que X tiene
una distribución binomial con parámetros n y p. Se escribe X ∼ bin(n, p),
y su función de probabilidad es
n
px (1 − p)n−x
si x = 0, 1, . . . , n,
f (x) = x
0 otro caso.
96 2.6. Distribuciones discretas
Se puede demostrar que E(X) = np, y Var(X) = np(1−p). En las gráficas de
la Figura 2.12 se muestra el comportamiento de esta función de probabilidad.
f (x) f (x)
0.3 b
0.3
b
b
0.2 b
n = 10 0.2 b b
n = 10
b
p = 0.3 p = 0.5
b b
0.1 b
0.1
b b b
b
b b b
bc bc bc bc bc bc bc bc bc bc
x b bc bc bc bc bc bc bc bc bc bc
x
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Figura 2.12: Función de probabilidad bin(n, p).
Distribución geométrica. Suponga que se tiene una sucesión infinita
de ensayos independientes Bernoulli en donde la probabilidad de éxito en
cada uno de ellos es p ∈ (0, 1). Se define X como el número de fracasos
antes de obtener el primer éxito. Se dice entonces que X tiene una distri-
bución geométrica con parámetro p. Se escribe X ∼ geo(p), y su función de
probabilidad es
(
p(1 − p)x si x = 0, 1, . . .
f (x) =
0 otro caso.
Para esta distribución se puede demostrar que E(X) = (1−p)/p, y Var(X) =
(1 − p)/p2 . En algunos textos se define también la distribución geométrica
como el número de ensayos, (y no el de fracasos), antes del primer éxito. En
tal caso, la función de probabilidad es f (x) = p(1 − p)x−1 , para x = 1, 2, . . ..
La media es entonces 1/p y la varianza es como antes.
Distribución Poisson. La variable aleatoria discreta X tiene una distri-
bución Poisson con parámetro λ > 0, y se escribe X ∼ Poisson(λ) si su
función de probabilidad es
Capı́tulo 2. Variables aleatorias 97
f (x)
0.4 b
0.3
b
0.2
b
0.1 b
b
b
b b
bc bc bc bc bc bc bc bc bcb bcb bc
x
1 2 3 4 5 6 7 8 9 10
Figura 2.13: Función de probabilidad geo(p) con p =0.4.
x
e−λ λ si x = 0, 1, . . .
f (x) = x!
0 otro caso.
Esta distribución fue descubierta por Simeón Denis Poisson en 1873 como
lı́mite de la distribución binomial, al respecto véase el ejercicio 222. Puede
demostrarse que E(X) = λ, y Var(X) = λ. La gráfica de la función de
probabilidad Poisson se muestra en la Figura 2.14.
f (x)
0.3 b b
0.2 b
0.1 b
b
b
bc bc bc bc bc bc bc bcb bc
x
1 2 3 4 5 6 7 8
Figura 2.14: Función de probabilidad Poisson(λ) con λ = 2.
Distribución binomial negativa. Suponga que se tiene una sucesión
infinita de ensayos independientes Bernoulli en donde la probabilidad de
98 2.6. Distribuciones discretas
éxito en cada ensayo es p ∈ (0, 1). Sea X el número de fracasos antes de
obtener el r-ésimo éxito. Se dice entonces que X tiene una distribución
binomial negativa con parámetros r y p. Se escribe X ∼ bin neg(r, p), y su
función de probabilidad es
r+x−1
pr (1 − p)x
si x = 0, 1 . . .
f (x) = x
0 otro caso.
Se puede demostrar que E(X) = r(1−p)/p, y Var(X) = r(1−p)/p2 . Es claro
que esta distribución es una generalización de la distribución geométrica, la
cual se obtiene cuando el parámetro r toma el valor 1. Para r = 3 y p =0.2,
la función de probabilidad binomial negativa tiene la forma como en la
Figura 2.15.
f (x)
0.06 b
b
b b
b
b
b
b b
b
b
b
0.04 b
b
b b
b
b
b
0.02 b b
b
b
b
b
b b
b b b b
bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc bc
x
5 10 15 20 25 30
Figura 2.15: Función de probabilidad bin neg(r, p) con r = 3 y p =0.2.
Distribución hipergeométrica. Suponga que se tiene un conjunto de N
objetos de los cuales K son de una primera clase, y N −K son de una segunda
clase. Suponga que de este conjunto se toma una muestra de tamaño n, sin
reemplazo y en donde el orden de los objetos seleccionados no importa.
Se define X como el número de objetos de la primera clase contenidos en
la muestra seleccionada. Entonces X puede tomar los valores 0, 1, . . . , n,
suponiendo n ≤ K. Decimos que X tiene una distribución hipergeométrica
Capı́tulo 2. Variables aleatorias 99
con parámetros N , K y n, se escribe X ∼ hipergeo(N, K, n), y su función
de probabilidad es
K
N −K
x n−x
si x = 0, 1, . . . , n,
f (x) =
N
n
0 otro caso.
La gráfica de esta función se muestra en la Figura 2.16.
f (x)
0.4 b
0.3 N = 20
0.2 K=7
b
n=5
0.1 b
b
bc bc bc bc bc bc
x
0 1 2 3 4 5
Figura 2.16: Función de probabilidad hipergeo(N, K, n).
Es posible comprobar que
K
E(X) = n · ,
N
K N −K N −n
y Var(X) = n · · · .
N N N −1
100 2.7. Distribuciones continuas
2.7. Distribuciones continuas
Ahora se estudian algunas distribuciones de probabilidad de variables alea-
torias absolutamente continuas. Algunas otras distribuciones continuas que
surgen en la estadı́stica serán estudiadas en el Capı́tulo 5.
Distribución uniforme continua. La variable aleatoria X tiene distri-
bución uniforme en el intervalo (a, b) y se escribe X ∼ unif(a, b), cuando su
función de densidad es
1
si x ∈ (a, b),
f (x) = b−a
0 otro caso.
En este caso es inmediato verificar que E(X) = (a + b)/2, y Var(X) = (b −
a)2 /12. La gráfica de esta función de densidad se muestra en la Figura 2.17
f (x)
1 bc bc
b−a
b b
x
a b
Figura 2.17: Función de densidad unif(a, b).
Distribución exponencial. La variable continua X tiene una distribu-
ción exponencial con parámetro λ > 0 y se escribe X ∼ exp(λ) cuando tiene
función de densidad
(
λe−λx si x > 0,
f (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 101
Para esta distribución es muy sencillo verificar que E(X) = 1/λ, y Var(X) =
1/λ2 . Su gráfica se muestra en la Figura 2.18.
f (x)
λ bc
b
x
Figura 2.18: Función de densidad exp(λ).
Distribución gama. La variable aleatoria continua X tiene distribución
gama con parámetros n > 0 y λ > 0 si su función de densidad es
n−1
(λx)
λe−λx si x > 0,
f (x) = Γ(n)
0 si x ≤ 0.
En tal caso se escribe X ∼ gama(n, λ). La gráfica de esta función se muestra
en la Figura 2.19.
El término Γ(n) es la función gama definida como sigue
Z ∞
Γ(n) = tn−1 e−t dt,
0
para valores de n tal que la integral es convergente. Esta función satisface
las siguientes propiedades:
a) Γ(n + 1) = nΓ(n).
102 2.7. Distribuciones continuas
λ=5
f (x) f (x)
λ=4
n=5
λ=3 n=7
n = 10
x x
n=5 λ=3
Figura 2.19: Función de densidad gama(n, λ).
b) Γ(n + 1) = n! para n entero positivo.
c) Γ(2) = Γ(1) = 1.
√
d) Γ(1/2) = π.
Observe que cuando el parámetro n toma el valor 1, la distribución gama(n, λ)
se reduce a la distribución exp(λ). Resolviendo un par de integrales se puede
demostrar que E(X) = n/λ, y Var(X) = n/λ2 .
Nota. La terminologı́a usada para esta distribución no es estándar. En
algunos otros textos aparece como gama(λ, n), es decir, los parámetros son
los mismos pero se presentan en el orden contrario. Puede entonces haber
confusión cuando se escribe por ejemplo gama(2, 3).
Distribución beta. La variable continua X tiene distribución beta con
parámetros a > 0 y b > 0, y se escribe X ∼ beta(a, b) cuando su función de
densidad es
1
xa−1 (1 − x)b−1 si 0 < x < 1,
f (x) = B(a, b)
0 otro caso.
Capı́tulo 2. Variables aleatorias 103
En la Figura 2.20 se ilustra la forma de esta función para varios valores de
los parámetros.
f (x)
3
a=2 a=6
b=6 b=2
2 a=4
b=4
a=1
1 b=1
b b
x
1
Figura 2.20: Función de densidad beta(a, b).
El término B(a, b) se conoce como la función beta, y se define para a > 0 y
b > 0 como sigue Z 1
B(a, b) = xa−1 (1 − x)b−1 dx.
0
Esta función satisface las siguientes propiedades.
a) B(a, b) = B(b, a).
Γ(a)Γ(b)
b) B(a, b) = .
Γ(a + b)
Para la distribución beta(a, b) se tiene que
a
E(X) = ,
a+b
ab
y Var(X) = .
(a + b + 1)(a + b)2
Distribución normal. Esta es posiblemente la distribución de probabi-
lidad de mayor importancia. Se dice que la variable aleatoria continua X
104 2.7. Distribuciones continuas
tiene una distribución normal o Gausiana si su función de densidad es
1 2 2
f (x) = √ e−(x−µ) /2σ ,
2πσ 2
en donde µ ∈ R y σ 2 > 0 son dos parámetros. En este caso se escribe
X ∼ N(µ, σ 2 ). No es difı́cil demostrar que E(X) = µ, y Var(X) = σ 2 . La
gráfica de la función de densidad normal aparece en la Figura 2.21.
f (x)
x
µ
Figura 2.21: Función de densidad N(µ, σ2 ).
En particular se dice que X tiene una distribución normal estándar si µ = 0
y σ 2 = 1. En este caso particular, la función de densidad se reduce a la
expresión más sencilla
1 2
f (x) = √ e−x /2 .
2π
Es posible transformar una variable aleatoria normal no estándar en una
estándar mediante la siguiente operación llamada estandarización. La de-
mostración de este resultado es elemental y se deja como ejercicio.
X −µ
Proposición. X ∼ N(µ, σ 2 ) ⇐⇒ Z = ∼ N(0, 1).
σ
Ejercicio. Demuestre la proposición anterior. ◦
Comúnmente se usa la letra Z para denotar una variable aleatoria con dis-
tribución normal estándar. En particular la función Φ(x) denota la función
Capı́tulo 2. Variables aleatorias 105
de distribución de una variable aleatoria normal estándar, es decir,
Z x
1 2
Φ(x) = P (Z ≤ x) = √ e−u /2 du.
−∞ 2π
Los valores de esta función no pueden encontrarse de manera explı́cita, asi
es que se usan métodos numéricos para aproximar la integral para distintos
valores de x. En una tabla al final del texto pueden encontrarse estos valores
aproximados.
Φ(x)
x
Figura 2.22: Área cubierta por la función de distribución Φ(x) = P (Z ≤ x).
Distribución log normal. Si X tiene distribución N(µ, σ 2 ), entonces la
variable Y = eX tiene una distribución log normal(µ, σ 2 ), y su función de
densidad es
√1
(ln y − µ)2
exp [− ] si y > 0,
f (y) = y 2πσ 2 2σ 2
0 si y ≤ 0.
La gráfica de esta función de densidad se muestra en la Figura 2.23.
Se puede demostrar que
E(Y ) = exp(µ + σ 2 /2),
y Var(Y ) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
Algunas otras distribuciones continuas de interés se encuentran en el capı́tu-
lo sobre distribuciones muestrales.
106 2.8. Ejercicios
f (y)
0.025
y
5 10 15 20 25
Figura 2.23: Función de densidad log normal(µ, σ2 ) con µ = 3 y σ2 = 2.
2.8. Ejercicios
Variables aleatorias
91. Demuestre que la función identidad X(ω) = ω no es variable aleatoria
cuando Ω = {1, 2, 3} y F = {∅, {1}, {2, 3}, Ω}.
92. Sea Ω = {−1, , 0, 1} y F = {∅, {0}, {−1, 1}, Ω}. Considere la función
identidad X(ω) = ω. Demuestre que X 2 es variable aleatoria pero X
no lo es.
93. Considere el espacio medible (Ω, F ), con F = {∅, Ω}. Demuestre que
la función X : Ω → R es variable aleatoria si, y sólo si, X es constante.
94. Sea (Ω, F ) un espacio medible tal que F = {∅, Ω, A, Ac } con A ⊆ Ω.
Demuestre que toda función medible X : Ω → R es constante en A y
en Ac . Por lo tanto toda función medible respecto de esta σ-álgebra
toma a lo sumo dos valores distintos. El siguiente ejercicio generaliza
este resultado.
95. Sea A1 , . . . , An una partición finita de Ω, y considere el espacio me-
dible (Ω, F ), con F = σ{A1 , . . . , An }. Demuestre que X : Ω → R es
variable aleatoria si, y sólo si, X es constante en cada elemento de la
partición. En consecuencia, X toma a lo sumo n valores distintos.
Capı́tulo 2. Variables aleatorias 107
96. Demuestre que X es variable aleatoria si, y sólo si, (X < x) ∈ F para
cada número real x.
97. Demuestre que X es variable aleatoria si, y sólo si, (X ≥ x) ∈ F para
cada número real x.
98. Demuestre que X es variable aleatoria si, y sólo si, (X > x) ∈ F para
cada número real x.
99. Demuestre que X es variable aleatoria si, y sólo si, (a < X < b) ∈ F
para cada intervalo (a, b) de R.
100. Sea c una constante y X una variable aleatoria. Demuestre directa-
mente que las siguientes funciones también son variables aleatorias:
cX, X + c, máx{X, c}, mı́n{X, c}.
101. Demuestre directamente que la diferencia de dos variables aleatorias
es variable aleatoria.
102. Sea X una variable aleatoria cualquiera. Demuestre que la parte entera
de X, denotada por ⌊X⌋, es una variable aleatoria discreta, es decir,
toma un número numerable de valores.
103. Demuestre que el conjunto de variables aleatorias definidas sobre un
espacio de probabilidad es un espacio vectorial con las operaciones
usuales de suma y producto por escalares.
104. Sean X y Y variables aleatorias. Demuestre directamente que tanto
máx{X, Y } como mı́n{X, Y } son variables aleatorias.
105. Demuestre directamente que si X es variable aleatoria, entonces tam-
bién lo son X n y 2X 3 − 5X.
106. Demuestre que X es variable aleatoria si, y sólo si, tanto X + =
máx{0, X} como X − = − mı́n{0, X}, lo son.
107. Sea A ⊆ Ω. Demuestre que la función indicadora 1A : Ω → R es
variable aleatoria si, y sólo si, el conjunto A es medible. Véase el
108 2.8. Ejercicios
apéndice al final del texto para la definición y algunas propiedades de
la función indicadora.
108. Sean A, B ⊆ Ω. Diga falso o verdadero. Demuestre en cada caso.
a) A, B medibles ⇒ 1A + 1B es v.a.
b) 1A + 1B es v.a. ⇒ A, B son medibles.
109. Sean A, B subconjuntos disjuntos de Ω y sean a, b dos números reales
distintos. Demuestre que
a1A + b1B es v.a. ⇔ A, B son medibles.
Una de estas implicaciones resulta falsa cuando se omite la condición
de que los números a y b son distintos. ¿Cuál de ellas es?
110. Sean A1 , . . . , An subconjuntos disjuntos de Ω, y sean a1 , . . . , an cons-
tantes distintas. Demuestre que
n
X
ai 1Ai es v.a. ⇐⇒ A1 , . . . , An son medibles.
i=1
111. Sean A y B dos eventos, y sean 1A y 1B las correspondientes funciones
indicadoras. Directamente de la definición demuestre que las funciones
1A + 1B , 1A − 1B y 1A · 1B son variables aleatorias.
112. Sean X y Y dos variables aleatorias. Demuestre que los conjuntos
(X ≤ Y ), (X = Y ), (X − Y < 1), (X − Y > 0), (X ≥ Y ) y (X 6= Y )
son eventos.
113. Sean X, Y y Z tres variables aleatorias. Demuestre que los conjuntos
(X ≤ Y ≤ Z), (X = Y = Z) y (X > Y > Z) son eventos.
114. Sea X una variable aleatoria y g : R → R una función Borel medi-
ble. Demuestre que g(X) = g ◦ X : Ω → R es también una variable
aleatoria. Sugerencia: Demuestre que la colección B = {B ∈ B(R) :
Capı́tulo 2. Variables aleatorias 109
g−1 B ∈ B(R)} coincide con B(R) usando los siguientes dos resul-
tados: (1) Dada una función continua de R en R, la imagen inversa
de un conjunto abierto es nuevamente un conjunto abierto. (2) Todo
conjunto abierto de R distinto del vacı́o puede expresarse como una
unión numerable de intervalos abiertos.
115. Sea X una variable aleatoria. Demuestre que las funciones eX , sen X,
y cos X son variables aleatorias.
116. Sea X : Ω → R una función. Proporcione un ejemplo en el que X 2 es
variable aleatoria pero |X| no lo es.
117. Sean X1 , . . . , Xn variables aleatorias. Demuestre que
n
1X
a) X̄ = Xi es v.a.
n
i=1
n
1 X
b) S2 = (Xi − X̄)2 es v.a.
n−1
i=1
118. Sea X una variable aleatoria, y sean a < b dos constantes. Demuestre
que las siguientes funciones son variables aleatorias.
X si X < a,
a) Y =
a si X ≥ a.
a si X < a,
b) Y = X si a ≤ X ≤ b,
b si X > b, .
X si |X| ≤ a,
c) Y =
0 si |X| > a, suponiendo a > 0.
119. Se define la función signo como sigue
+1 si x > 0,
signo(x) = −1 si x < 0,
0 si x = 0.
110 2.8. Ejercicios
Demuestre que si X es variable aleatoria, entonces signo(X) también
lo es. ¿Es cierto el recı́proco?
120. Sea (Ω, F , P ) un espacio de probabilidad, y sea X : Ω → R una
función. Demuestre que la colección {X −1 B : B ∈ B(R)} es una sub
σ-álgebra de F si, y sólo si, X es variable aleatoria. A esta colección
se le denota por σ(X), y es la mı́nima σ-álgebra respecto de la cual
X es variable aleatoria.
121. Sea X una variable aleatoria con valores en el conjunto {0, 1, . . .}.
Sea (X)10 el valor de X módulo 10. Demuestre que (X)10 es también
variable aleatoria.
122. Medida de probabilidad inducida. Sean (Ω1 , F1 ) y (Ω2 , F2 ) dos
espacios medibles, y sea X : Ω1 → Ω2 una función medible, es decir,
para cualquier A en F2 se cumple que X −1 A ∈ F1 . Suponga que
P : F1 → [0, 1] es una medida de probabilidad. Demuestre que P ◦
X −1 : F2 → [0, 1] es también una medida de probabilidad. A esta
función se le llama medida de probabilidad inducida por X.
123. Sea c una constante distinta de cero, y sea X una variable aleatoria.
Demuestre o proporcione un contraejemplo.
a) σ(cX) = σ(X).
b) σ(X + c) = σ(X).
c) σ(X) = σ(X 2 ).
Función de distribución
124. Grafique y demuestre que las siguientes funciones son de distribución.
1 − e−x si x > 0,
a) F (x) =
0 si x ≤ 0.
1 − (1 + x)e−x si x > 0,
b) F (x) =
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 111
0 si x < −1,
c) F (x) = (x + 1)/2 si x ∈ [−1, 1],
1 si x > 1.
125. Investigue si las siguientes funciones son de distribución.
2
1 − e−x si x > 0,
a) F (x) =
0 si x ≤ 0.
−1/x
e si x > 0,
b) F (x) =
0 si x ≤ 0.
c) F (x) = ex /(1 + ex ), para x ∈ R.
d) F (x) = ex /(ex + e−x ), para x ∈ R.
126. Sean F (x) y G(x) dos funciones de distribución. Determine si las si-
guientes funciones son de distribución.
a) aF (x) + (1 − a)G(x), con 0 ≤ a ≤ 1.
b) F (x) + G(x).
c) F (x)G(x).
2 G(x)
d) .
1 + F (x)
127. Sea X con la siguiente función de distribución. Grafique F (x) y de-
muestre que es efectivamente una función de distribución. Calcule
además P (X ≤ 4), P (X > 1), P (4 < X < 6) y P (X = 2).
0 si x < 2,
F (x) = 2
1 − 4/x si x ≥ 2.
128. Sea X con función de distribución
0 si x < 0,
0.2
si 0 ≤ x < 1,
F (x) = 0.5 si 1 ≤ x < 3,
0.9 si 3 ≤ x < 4,
1 si x ≥ 4.
112 2.8. Ejercicios
Grafique F (x) y demuestre que es una función de distribución. Calcule
además P (X ≤ 1), P (X = 1), P (0 < X < 3), P (X = 4) y P (X ≥ 3).
129. En la escuela rusa de probabilidad se define la función de distribución
de una variable aleatoria X como G(x) = P (X < x). Observe el
signo “<” en lugar de “≤”. Demuestre que esta función cumple todas
las propiedades de una función de distribución, excepto que ahora la
continuidad es por la izquierda.
130. Sea F (x) una función de distribución continua. Demuestre que pa-
ra cualquier entero n ≥ 1, las siguientes funciones también son de
distribución.
a) [F (x)]n .
b) 1 − [1 − F (x)]n .
131. Sea X con función de distribución F (x). Diga falso o verdadero, de-
muestre en cada caso. Para todo x ∈ R,
a) F (x) = P (X < x) + P (X = x).
b) 1 − F (x) = P (X ≥ x).
c) 1 − P (X < x) − P (X > x) = P (X = x).
1 1
d) F (x) − P (X = x) = (F (x) + F (x−)).
2 2
132. Encuentre la función de distribución de la variable Y en términos de
la función de distribución de X cuando
a) Y = aX + b, con a, b constantes. f ) Y = X − = − mı́n{0, X}.
b) Y = eX . g) Y = |X|.
c) Y = e−X . h) Y = −X.
d) Y = X 2. i) Y = sen X.
e) Y = X + = máx{0, X}. j) Y = cos X.
133. Sea X con función de distribución FX (x), y sean a < b dos constantes.
Calcule la función de distribución de Y en términos de la función
Capı́tulo 2. Variables aleatorias 113
de distribución de X, y muestre gráficamente el comportamiento de
FY (y) en los puntos a y b.
X si X < a,
a) Y =
a si X ≥ a.
a si X < a,
b) Y = X si a ≤ X ≤ b,
b si X > b.
X si |X| ≤ a,
c) Y =
0 si |X| > a, con a > 0.
134. Sean F (x) y G(x) dos funciones de distribución continuas y estricta-
mente crecientes. Demuestre que
a) si F (x) ≥ G(x), entonces F −1 (y) ≤ G−1 (y).
b) si X tiene función de distribución F (x), entonces Y = G−1 (F (X))
tiene función de distribución G(x).
c) si F (x) ≥ G(x), entonces existen variables aleatorias X y Y cuyas
funciones de distribución son F (x) y G(x) respectivamente, y son
tales que X ≤ Y . Sugerencia: Use el inciso anterior.
135. Sea X con función de distribución F (x). Demuestre que F (x) es con-
tinua en x = x0 si, y sólo si, P (X = x0 ) = 0.
Tipos de variables aleatorias
136. Encuentre la constante c que hace a f (x) una función de probabilidad.
c
a) f (x) = , para x = 1, 2, . . .
x(x + 1)
b) f (x) = c e−x , para x = 1, 2, . . .
c) f (x) = c/x!, para x = 1, 2, . . .
137. Encuentre la constante c que hace a f (x) una función de densidad.
114 2.8. Ejercicios
a) f (x) = c x2 , para 0 < x < 1.
2
b) f (x) = c xe−2x , para x > 0.
c) f (x) = c x−2 , para x > 1.
c ex
d) f (x) = , para x ∈ R.
(1 + ex )2
e) f (x) = c x(1 − x), para 0 < x < 1.
c
f ) f (x) = √ , para 0 < x < 1.
1 − x2
c
g) f (x) = , para x ∈ R.
1 + x2
138. Demuestre que las siguientes funciones son de densidad. Encuentre
la correspondiente función de distribución y demuestre que ésta es
efectivamente una función de distribución. Grafique ambas funciones.
a) f (x) = 2x, para x ∈ (0, 1).
b) f (x) = 3x2 /2, para x ∈ (−1, 1).
c) f (x) = 1 − x/2, para x ∈ (0, 2).
d) f (x) = 2x/m2 , para x ∈ (0, m), con m > 0.
e) f (x) = 1/(1 − x)2 , para x ∈ (0, 1/2).
f ) f (x) = e|x| /2, para x ∈ R.
139. Demuestre que las siguientes funciones son de distribución. Encuen-
tre la correspondiente función de densidad y compruebe que ésta es
efectivamente una función de densidad. Grafique ambas funciones.
0 si x < 0,
a) F (x) =
1 si x ≥ 0.
0 si x ≤ 0,
b) F (x) = x si 0 < x < 1,
1 si x ≥ 1.
c) F (x) = ex /(1 + ex ).
Z
1 x −|u|
d) F (x) = e du.
2 −∞
Capı́tulo 2. Variables aleatorias 115
140. Sea f (x) una función de densidad y sea c una constante cualquiera.
Demuestre que f (x + c) es también una función de densidad.
141. Diga falso o verdadero. Demuestre en cada caso.
a) Toda función de densidad es acotada.
b) Toda función de distribución es acotada.
142. Sea X absolutamente continua, y sea Y = aX +b con a y b constantes.
Demuestre que si a 6= 0, entonces
1
fY (y) = fX ((y − b)/a).
|a|
Igualdad de variables aleatorias
143. Demuestre que la igualdad casi segura de variables aleatorias es una
relación de equivalencia. ¿Cumple tal propiedad la igualdad en distri-
bución?
144. Sean X y Y con esperanza finita tales que X = Y c.s. Demuestre que
E(X) = E(Y ).
145. Sea X ≥ 0 tal que E(X) = 0. Demuestre que X = 0 c.s. Sugerencia:
Para cada natural n defina el evento An = (X ≥ 1/n). Compruebe
que E(X) ≥ E(X · 1An ) ≥ P (An )/n. Esto lleva a la conclusión de que
P (An ) = 0 y por lo tanto P (∪∞
n=1 An ) = 0. Ahora compruebe que los
eventos (X > 0) y ∪∞ A
n=1 n coinciden. Alternativamente puede usarse
la desigualdad de Markov.
Integral de Riemann-Stieltjes
146. Sea X una variable aleatoria con función de distribución F , y sea a
cualquier número real. Demuestre que
Z ∞
1{a} (x) dF (x) = P (X = a).
−∞
116 2.8. Ejercicios
147. Sea X una variable aleatoria con función de distribución F , y sea
(a, b) ⊆ R. Demuestre que
Z ∞
1(a,b) (x) dF (x) = P (a < X < b).
−∞
148. Sea F una función de distribución absolutamente continua. Demuestre
que para cualesquiera números naturales n y m,
Z ∞
m
F n (x) dF m (x) = .
−∞ n+m
Esperanza
149. Calcule la esperanza de X cuya función de probabilidad o de densidad
es
a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.
b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
d) f (x) = e−|x| /2, para x ∈ R.
150. Calcule la esperanza de una variable aleatoria cuya función de distri-
bución es
1 − e−x /2 si x > 1,
F (x) =
0 si x ≤ 1.
151. Sean X y Y con esperanza finita, y sea c una constante. Demuestre
que
a) E(c) = c.
b) E(cX) = cE(X).
c) E(X + c) = E(X) + c.
d) Si X ≥ 0, entonces E(X) ≥ 0.
Capı́tulo 2. Variables aleatorias 117
e) Si X ≤ Y , entonces E(X) ≤ E(Y ).
f ) |E(X)| ≤ E|X|.
152. Demuestre que no existe la esperanza de X cuando su función de
probabilidad o de densidad es
3
a) f (x) = , para x ∈ Z \ {0}.
π 2 x2
1
b) f (x) = , para x ∈ R.
π(1 + x2 )
153. La paradoja de San Petersburgo. Un juego consiste en lanzar
una moneda equilibrada repetidas veces hasta que una de las caras,
seleccionada previamente, aparezca por primera vez. Si un jugador
lanza la moneda y requiere de n lanzamientos para que se cumpla la
condición, entonces recibe 2n unidades monetarias. ¿Cuál debe ser el
pago inicial justo para ingresar a este juego?
154. Sea {A1 , A2 , . . .} una colección de eventos que forman una partición
de Ω tal que cada elemento de la partición tiene probabilidad estric-
tamente positiva. Sea X una variable aleatoria discreta con esperanza
finita. Para cualquier evento A con probabilidad positiva defina
X
E(X | A) = xP (X = x | A).
x
∞
X
Demuestre que E(X) = E(X | Ai )P (Ai ).
i=1
155. Sean X y Y con esperanza finita. Demuestre que
a) E(mı́n{X, Y }) ≤ mı́n{E(X), E(Y )} ≤ E(X).
b) E(máx{X, Y }) ≥ máx{E(X), E(Y )} ≥ E(X).
156. Sea X una variable aleatoria con n-ésimo momento finito, y sea a una
constante. Demuestre que E|X − a|n ≤ E|X|n .
118 2.8. Ejercicios
157. Sea X > 0, discreta y con esperanza finita. Demuestre directamente
que E(X)E(1/X) ≥ 1. Este resultado puede ser demostrado usando
la desigualdad de Jensen, pero en este ejercicio se pide obtener el
resultado sin usar dicha desigualdad.
158. Sea X discreta con valores no negativos x1 ≤ x2 ≤ · · · ≤ xk . Demues-
tre que
E(X n+1 )
a) lı́m = xk ,
n→∞ E(X n )
p
b) lı́m n E(X n ) = x1 .
n→∞
159. Sea X discreta con valores 0, 1, . . . y con esperanza finita. Demuestre
que
∞
X ∞
X
E(X) = P (X ≥ n) = P (X > n).
n=1 n=0
Use esta fórmula para demostrar que
a) si X tiene distribución geo(p), entonces E(X) = (1 − p)/p.
b) si X tiene distribución Poisson(λ), entonces E(X) = λ.
160. Sea X ≥ 0 con esperanza finita, y suponga que para algún p ∈ (0, 1),
se cumple la desigualdad P (X ≥ k) ≤ pk , para cada k = 0, 1, . . ..
Demuestre que E(X) ≤ 1/(1 − p).
161. Sea X ≥ 0 con esperanza finita no necesariamente discreta. Para cada
número natural n defina el evento An = (n − 1 ≤ X < n). Demuestre
que
X∞ X∞
(n − 1)1An ≤ X < n1An .
n=1 n=1
Ahora demuestre las desigualdades
∞
X ∞
X
P (X ≥ n) ≤ E(X) < 1 + P (X ≥ n).
n=1 n=1
Capı́tulo 2. Variables aleatorias 119
162. Sea X con función de distribución F (x), y con esperanza finita. De-
muestre que
a) lı́m x[1 − F (x)] = 0.
x→∞
b) lı́m xF (x) = 0.
x→−∞
163. Sea X con función de distribución F (x), y con esperanza finita. De-
muestre que
Z ∞ Z 0
E(X) = [1 − F (x)]dx − F (x)dx.
0 −∞
Gráficamente estas integrales pueden interpretarse como se indica en
la Figura 2.24.
F (x)
1
+
−
x
Figura 2.24: La esperanza como la diferencia de dos áreas.
Use esta fórmula para demostrar que
a) si X tiene distribución exp(λ), entonces E(X) = 1/λ.
b) si X tiene distribución gama(n, λ), entonces E(X) = n/λ.
164. Sea X una variable aleatoria no negativa con función de distribución
continua F (x) y con esperanza finita µ. Demuestre que la siguiente
función es de distribución.
Z ∞
1− 1 (1 − F (x)) dx si y > 0,
G(y) = µ y
0 si y ≤ 0.
120 2.8. Ejercicios
Demuestre que la esperanza de esta distribución es 2 E(X 2 )/µ, supo-
niendo que el segundo momento de X es finito.
165. Sea X con función de distribución continua F (x), y con esperanza
finita µ. Demuestre que
Z µ Z ∞
F (x)dx = [1 − F (x)]dx.
−∞ µ
166. Demuestre que la condición E(X) = 0 no implica que X es simétrica
alrededor de cero. Sugerencia: Considere X tal que P (X = −1) = 1/2,
P (X = 0) = 1/8, P (X = 1) = 1/4 y P (X = 2) = 1/8. ¿Puede usted
construir un ejemplo de una distribución continua con esperanza cero,
que no sea simétrica?
167. Calcule la esperanza de una variable aleatoria con función de distribu-
ción continua dada por la siguiente gráfica. Calcule y grafique además
la correspondiente función de densidad.
F (x)
1
1/2
x
−3 −2 −1 1 2 3
168. Calcule la esperanza de una variable aleatoria con función de distri-
bución dada por la siguiente gráfica:
Capı́tulo 2. Variables aleatorias 121
F (x)
1 b
3/4 bc
2/4 b
1/4 b bc
bc
x
1 2 3
Varianza
169. Calcule la varianza de X cuya función de probabilidad o de densidad
es
a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.
b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
d) f (x) = e−|x| /2, para x ∈ R.
170. Sean X y Y con varianza finita y sea c una constante. Demuestre las
siguientes propiedades de la varianza.
a) Var(X) ≥ 0.
b) Var(cX) = c2 Var(X).
c) Var(X + c) = Var(X).
d) Var(X) = E(X 2 ) − E 2 (X).
171. Use la desigualdad de Chebyshev para demostrar que Var(X) = 0 si,
y sólo si, X es constante.
172. Sea X con valores en [a, b]. Demuestre que
a) a ≤ E(X) ≤ b.
b) 0 ≤ Var(X) ≤ (b − a)2 /4.
122 2.8. Ejercicios
173. Minimización del error cuadrático medio. Sea X con segundo
momento finito. A la función g(u) = E[(X − u)2 ] se le conoce como
error cuadrático medio. Demuestre que g(u) se minimiza cuando u =
E(X). En consecuencia, para cualquier valor real de u,
Var(X) ≤ E[(X − u)2 ].
174. Sea X con varianza finita y sea c una constante. Demuestre que
E(X − c)2 = Var(X) + [E(X) − c]2 .
175. Sea X con media µ y varianza σ 2 . Demuestre que E|X − µ| ≤ σ.
Sugerencia: Var(|X − µ|) ≥ 0.
176. Diga falso o verdadero. Demuestre en cada caso.
a) Si X ≤ Y , entonces Var(X) ≤ Var(Y ).
b) Var(X) ≤ E(X 2 ).
c) E 2 (X) ≤ E(X 2 ).
177. Sea X una variable aleatoria con varianza finita, y sea a una constante.
Diga si las siguientes afirmaciones son falsas o verdaderas, demuestre
en cada caso.
a) E(mı́n{X, a}) ≤ E(X) ≤ E(máx{X, a}).
b) Var(mı́n{X, a}) ≤ Var(X) ≤ Var(máx{X, a}).
178. Sean X y Y con varianza finita. Diga si las siguientes desigualdades
son falsas o verdaderas, demuestre en cada caso.
a) Var(mı́n{X, Y }) ≤ Var(X) ≤ Var(máx{X, Y }).
b) Var(X + Y ) ≤ 2 ( Var(X) + Var(Y ) ).
p p p
c) Var(X + Y ) ≤ Var(X) + Var(Y ).
179. Sea X con varianza finita, y sea c una constante cualquiera. Diga si
las siguientes afirmaciones son falsas o verdaderas, demuestre en cada
caso.
Capı́tulo 2. Variables aleatorias 123
a) Var(X + c) = Var(X − c).
b) Var(|X|) ≤ Var(X).
c) Var(|X − c|) ≤ Var(X).
180. Calcule la varianza de una variable aleatoria cuya función de distri-
bución está dada por la siguiente gráfica:
F (x)
1
3/4 b
b bc
bc
1/4
x
−3 −2 −1 1 2 3
181. Sean X y Y independientes y con segundo momento finito. Demuestre
que
Var(XY ) = Var(X) Var(Y ) + E 2 (X) Var(Y ) + E 2 (Y ) Var(X).
182. Sean X y Y con segundo momento finito. Demuestre que
p p p p p
| Var(X) − Var(Y )| ≤ Var(X ± Y ) ≤ Var(X) + Var(Y ).
Momentos
183. Calcule el n-ésimo momento de una variable aleatoria cuya función de
probabilidad o de densidad es
a) f (x) = 1/5, para x = −2, −1, 0, 1, 2.
b) f (x) = e−1 /x!, para x = 0, 1, 2, . . .
c) f (x) = |x|, para −1 < x < 1.
124 2.8. Ejercicios
d) f (x) = e−|x| /2, para x ∈ R.
184. Sea X con n-ésimo momento finito. Demuestre que para cualquier
número natural m ≤ n, se cumple E|X|m ≤ E|X|n . Este resultado
establece que si el n-ésimo momento de una variable aleatoria es fi-
nito, entonces todos los momentos anteriores a n también son finitos.
Sugerencia: |X|m = |X|m · 1(|X|≤1) + |X|m · 1(|X|>1) .
185. Sea X con distribución simétrica alrededor de x = 0, y con cuarto
momento finito. Demuestre que para cualquier número real a,
E(X 4 ) ≤ E(X − a)4 .
186. Sea 1A la función indicadora de un evento A. Demuestre que
a) E(1A ) = E(1nA ) = P (A).
b) Var(1A ) = P (A)(1 − P (A)) ≤ 1/4.
187. Sea X con n-ésimo momento finito. Demuestre que
Z ∞ Z 0
n n−1
E |X| = n x (1 − F (x)) dx + n |x|n−1 F (x) dx.
0 −∞
188. Sea X discreta con valores en el conjunto {0, 1, . . .}, y con segundo
momento finito. Demuestre que
∞
X
2
E(X ) = (2n − 1)P (X ≥ n).
n=1
189. Espacio L1 . Demuestre que el espacio L1 (Ω, F , P ) consistente de
todas las variables aleatorias X tales que E|X| < ∞, es un espacio
vectorial. Para resolver este ejercicio suponga válida la propiedad de
linealidad de la esperanza. Tal propiedad será demostrada más ade-
lante.
Capı́tulo 2. Variables aleatorias 125
190. Desigualdad de Cauchy-Schwarz. Sean X y Y con segundo
momento finito. Demuestre que
E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Sugerencia: Para cualquier valor real de t, la esperanza de (tX +Y )2 es
no negativa. Desarrolle el cuadrado y encuentre una ecuación cuadráti-
ca en t. ¿Qué puede decir de su discriminante?
191. Espacio L2 . Use la desigualdad de Cauchy-Schwarz para demostrar
que el espacio L2 (Ω, F , P ) consistente de todas las variables aleatorias
X tales que E|X|2 < ∞, es un espacio vectorial.
192. Desigualdad de Jensen. Sea u una función convexa, y sea X una
variable aleatoria con esperanza finita. Demuestre que
u(E(X)) ≤ E(u(X)).
Sugerencia: La función u es convexa si para cada a existe un número
m tal que u(x) ≥ u(a) + (x − a)m, para todo x. Gráficamente,
u(x)
u(a) + (x − a)m
u(a) b
x
a
Alternativamente, una función u es convexa si u(tx + (1 − t)y) ≤
tu(x) + (1 − t)u(y), para cualesquiera par de números x y y dentro
del dominio de definición de u, y para cualquier t en el intervalo [0, 1].
Debe suponerse además que el número tx + (1 − t)y pertenece también
al dominio de definición de la función. Vea el siguiente ejercicio para
algunos ejemplos particulares de funciones convexas.
126 2.8. Ejercicios
193. Sea X con esperanza finita. Use la desigualdad de Jensen para demos-
trar que
a) eE(X) ≤ E(eX ).
b) E 2 (X) ≤ E(X 2 ).
1
c) ≤ E(1/X), suponiendo X > 0.
E(X)
194. Demuestre que si X es una variable aleatoria acotada casi seguramen-
te, es decir, existe k > 0 tal que P (|X| ≤ k) = 1, entonces todos los
momentos de X existen.
195. Sea X una variable aleatoria con función de densidad dada por
(
n/xn+1 si x > 1,
f (x) =
0 otro caso.
Demuestre que esta función es de densidad para cualquier valor natural
del parámetro n. Demuestre además que tal variable aleatoria tiene
momentos finitos de orden 1, 2, . . . , n − 1, pero el n-ésimo momento y
superiores no existen.
196. Desigualdad cr . Demuestre que para cada r > 0,
E |X + Y |r ≤ cr ( E|X|r + E|Y |r ),
en donde
1 si 0 < r ≤ 1,
cr =
2r−1 si r > 1.
Este resultado establece que si X y Y tienen r-ésimo momento abso-
luto finito, entonces X + Y también. Sugerencia: A partir de (1+t)r =
cr (1 + tr ) para t ≥ 0, demuestre que para cualesquiera números reales
x y y,
|x + y|r ≤ cr ( |x|r + |y|r ).
Capı́tulo 2. Variables aleatorias 127
197. Desigualdad de Hölder. Sean r y s dos números reales tales que
r > 1 y 1/r + 1/s = 1. Demuestre que
E |XY | ≤ (E |X|r )1/r · (E|Y |s )1/s .
Sugerencia: Use la desigualdad |xy| ≤ |x|r /r + |y|s /s, válida para
cualesquiera números reales x y y, y para r y s con las condiciones
mencionadas. El caso r = s = 2 corresponde a la desigualdad de
Cauchy-Schwarz.
198. Desigualdad de Minkowski. Demuestre que para r ≥ 1,
E 1/r |X + Y |r ≤ E 1/r |X|r + E 1/r |Y |r .
Sugerencia: E |X + Y |r ≤ E (|X| · |X + Y |r−1 ) + E (|Y | · |X + Y |r−1 ),
ahora use la desigualdad de Hölder.
Cuantiles
199. Calcule los cuartiles de la distribución normal estándar.
200. Calcule los cuartiles de la distribución exponencial de parámetro λ.
201. Minimización del error absoluto medio. A la función g(u) =
E |X − u| se le conoce como error absoluto medio. Demuestre que si
m una mediana de X, entonces para cualquier número real u,
E |X − m| ≤ E |X − u|.
Demuestre además que la igualdad se cumple si, y sólo si, u es cualquier
otra mediana de X.
202. Sea X una variable aleatoria con segundo momento
p finito y sea m una
de sus medianas. Demuestre que |m − E(X)| ≤ 2 Var(X).
128 2.8. Ejercicios
Distribución uniforme discreta
203. Sea X con distribución unif{1, . . . , n}. Demuestre que
a) E(X) = (n + 1)/2.
b) E(X 2 ) = (n + 1)(2n + 1)/6.
c) Var(X) = (n2 − 1)/12.
204. Se escogen al azar y de manera independiente dos números a y b
dentro del conjunto {1, . . . , n}. Demuestre que la probabilidad de que
el cociente a/b sea menor o igual a uno es (n + 1)/2n.
Distribución Bernoulli
205. Compruebe que la función de probabilidad de la distribución Ber(p)
efectivamente lo es. Obtenga además la correspondiente función de
distribución. Grafique ambas funciones.
206. Sea X con distribución Ber(p). Demuestre que E(X n ) = p, para cada
n ≥ 1. En particular, compruebe que Var(X) = p(1 − p).
Distribución binomial
207. Use el teorema del binomio para comprobar que la función de proba-
bilidad de la distribución bin(n, p) efectivamente lo es.
208. Sea X con distribución bin(n, p). Demuestre que
a) E(X) = np.
b) E(X 2 ) = np(1 − p + np).
c) Var(X) = np(1 − p).
d) E(X − np)3 = np(1 − p)(1 − 2p).
e) E(X − np)4 = 3n2 p2 (1 − p)2 + np(1 − p)(1 − 6(1 − p)p).
Capı́tulo 2. Variables aleatorias 129
209. Sea X con distribución bin(n, p). Demuestre que Y = n − X tiene
distribución bin(n, 1 − p).
210. Sea X con distribución bin(n, p). Demuestre que
p n−x
a) P (X = x + 1) = · · P (X = x).
1−p x+1
b) P (X = x − 1) · P (X = x + 1) ≤ P 2 (X = x).
211. Sea X con distribución bin(n, p). Demuestre que
1
a) P (X ∈ {1, 3, 5, . . .}) = (1 − (1 − 2p)n ).
2
1
b) P (X ∈ {0, 2, 4, . . .}) = (1 + (1 − 2p)n ).
2
212. Se lanza una moneda equilibrada 6 veces. Calcule la probabilidad de
que cada cara se obtenga exactamente 3 veces.
Distribución geométrica
213. Compruebe que la función de probabilidad de la distribución geo(p)
efectivamente lo es. Demuestre que la correspondiente función de dis-
tribución es
1 − (1 − p)⌊x⌋+1 si x ≥ 0,
F (x) =
0 si x < 0.
La expresión ⌊x⌋ denota la parte entera de x.
214. Sea X con distribución geo(p). Demuestre que
a) E(X) = (1 − p)/p.
b) Var(X) = (1 − p)/p2 .
215. Sea X con distribución geo(p). Demuestre que P (X ≥ n) = (1 − p)n .
Use este resultado y la fórmula del ejercicio 159 en la página 118 para
demostrar que E(X) = (1 − p)/p.
130 2.8. Ejercicios
216. La distribución geométrica no tiene memoria. Sea X con dis-
tribución geo(p). Demuestre que para cualesquiera x, y = 0, 1, . . .
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
Esta es la única distribución discreta con tal propiedad, al respecto
ver el siguiente ejercicio.
217. Sea X una variable aleatoria discreta con valores en {0, 1, . . .} y tal
que para cualquier x, y = 0, 1, . . ., se cumple la igualdad
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
Demuestre que existe un número p ∈ (0, 1) tal que X tiene distribución
geo(p).
Distribución Poisson
218. Compruebe que la función de probabilidad de la distribución Poisson(λ)
efectivamente lo es.
219. Sea X con distribución Poisson(λ). Demuestre que
a) E(X) = λ.
b) E(X 2 ) = λ(λ + 1).
c) Var(X) = λ.
d) E(X 3 ) = λE(X + 1)2 .
220. Sea X con distribución Poisson(λ). Demuestre que
λ
a) P (X = x + 1) = · P (X = x).
x+1
b) P (X = x − 1) · P (X = x + 1) ≤ P 2 (X = x).
221. Sea X con distribución Poisson(λ). Demuestre que
Capı́tulo 2. Variables aleatorias 131
1
a) P (X ∈ {1, 3, 5, . . .}) = (1 − e−2λ ).
2
1
b) P (X ∈ {0, 2, 4, . . .}) = (1 + e−2λ ).
2
222. Teorema de Poisson (Convergencia de la dist. binomial a la
dist. Poisson). Para cada entero positivo n, sea Xn con distribución
bin(n, λ/n) con λ > 0. Demuestre que para cada k = 0, 1, . . .
λk
lı́m P (Xn = k) = e−λ .
n→∞ k!
Distribución binomial negativa
223. Compruebe que la función de probabilidad de la distribución bin neg(r, p)
efectivamente lo es.
224. Sea X con distribución bin neg(r, p). Demuestre que
a) E(X) = r(1 − p)/p.
b) Var(X) = r(1 − p)/p2 .
225. Convergencia de la dist. binomial negativa a la dist. Pois-
son. Sea X1 , X2 , . . . una sucesión de variables tal que cada una de
ellas tiene distribución bin neg(n, p) con p = n/(λ + n) para algún
λ > 0. Demuestre que para cada k = 0, 1, . . .
λk
lı́m P (Xn = k) = e−λ .
n→∞ k!
Distribución hipergeométrica
226. Compruebe que la función de probabilidad de la distribución hipergeo(N, K, n)
efectivamente lo es.
132 2.8. Ejercicios
227. Convergencia de la dist. hipergeométrica a la dist. bino-
mial. Sea X con distribución hipergeo(N, K, n). Demuestre que cuan-
do N y K tienden a infinito de tal forma que K/N → p, entonces
n
lı́m P (X = x) = px (1 − p)n−x .
N,K→∞ x
Distribución uniforme continua
228. Compruebe que la función de densidad de la distribución unif(a, b)
efectivamente lo es. Calcule además la correspondiente función de dis-
tribución. Grafique ambas funciones.
229. Sea X con distribución unif(a, b). Demuestre que
a) E(X) = (a + b)/2.
bn+1 − an+1
b) E(X n ) = .
(n + 1)(b − a)
c) Var(X) = (b − a)2 /12.
230. Sea X con distribución unif(0, 1). Demuestre que E(X n ) = 1/(n + 1).
231. Sea X con distribución unif(−1, 1). Demuestre que para n = 0, 1, 2, . . .
(
1/n + 1 si n es par,
E(X n ) =
0 si n es impar.
232. Sea X con distribución unif(0, 1). Obtenga la distribución de
a) Y = 10X − 5.
b) Y = 4X(1 − X).
233. Sea X con distribución unif(0, 1) y sea 0 < p < 1. Demuestre que la
variable aleatoria Y = ⌊ln X/ ln(1 − p)⌋ tiene distribución geo(p). La
expresión ⌊x⌋ denota la parte entera de x.
Capı́tulo 2. Variables aleatorias 133
234. Sea X con distribución unif(0, 1). Defina a Y como el primer dı́gito
decimal de X. Demuestre que Y tiene distribución uniforme en el
conjunto {0, 1, . . . , 9}.
Distribución exponencial
235. Compruebe que la función de densidad de la distribución exp(λ) efec-
tivamente lo es. Demuestre que la correspondiente función de distri-
bución es
1 − e−λx si x > 0,
F (x) =
0 si x ≤ 0.
Demuestre además que para cualquier x, y > 0,
F (x + y) − F (y) = F (x)(1 − F (y)).
236. Demuestre que la esperanza de la distribución exp(λ) es 1/λ, y la
varianza es 1/λ2 .
237. La distribución exponencial no tiene memoria. Sea X con
distribución exp(λ). Demuestre que
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
La distribución exponencial es la única distribución absolutamente
continua que satisface esta propiedad, al respecto ver el siguiente ejer-
cicio.
238. Sea X una variable aleatoria absolutamente continua con valores en
el intervalo (0, ∞), y tal que para cualesquiera x, y > 0 se cumple
P (X ≥ x + y | X ≥ x) = P (X ≥ y).
Demuestre que existe una constante λ > 0 tal que X tiene distribución
exp(λ).
134 2.8. Ejercicios
239. Sea X una variable aleatoria con función de distribución continua
F (x), estrictamente creciente y tal que 0 < F (x) < 1. Demuestre que
la variable aleatoria Y = − ln F (X) tiene distribución exponencial con
parámetro λ = 1.
240. Sea a > 0. Demuestre que si X se distribuye exp(λ), entonces aX se
distribuye exp(λ/a).
241. Se dice que la variable X tiene una distribución exponencial bilateral
(o exponencial doble) con parámetro λ > 0 si su función de densidad
es
1
f (x) = λe−λ|x| , para x ∈ R.
2
Demuestre que la esperanza de esta distribución es cero, y la varianza
es 2/λ2 .
242. Sea X una variable aleatoria con distribución exponencial de paráme-
tro λ, y sea a una constante positiva. Calcule la esperanza y varianza
de la variable mı́n{X, a}.
Distribución gama
243. Compruebe que la función de densidad de la distribución gama(n, λ)
efectivamente lo es. Verifique además que esta distribución se reduce
a la distribución exp(λ) cuando n = 1.
244. Sea a > 0. Demuestre que si X se distribuye gama(n, λ), entonces aX
se distribuye gama(n, λ/a).
245. Sea X con distribución gama(n, λ). Demuestre que la función de dis-
tribución de X es
n−1
X (λx)k
e−λx
1− si x > 0,
F (x) = k!
k=0
0 si x ≤ 0.
Capı́tulo 2. Variables aleatorias 135
246. Sea X con distribución gama(n, λ). Demuestre que
a) E(X) = n/λ.
Γ(m + n)
b) E(X m ) = m , para m = 0, 1, . . .
λ Γ(n)
c) Var(X) = n/λ2 .
247. Recuerde que la función gama se define para cada valor de n tal que
la siguiente integral es convergente
Z ∞
Γ(n) = tn−1 e−t dt.
0
Demuestre que esta función cumple las siguientes propiedades.
a) Γ(n + 1) = nΓ(n).
b) Γ(n + 1) = n! para n entero.
c) Γ(2) = Γ(1) = 1.
√
d) Γ(1/2) = π.
1 · 3 · 5 · · · (2n − 1) √
e) Γ(n + 1/2) = π para n entero.
2n
Distribución beta
248. Compruebe que la función de densidad de la distribución beta(a, b)
efectivamente lo es. Verifique además que esta distribución se reduce
a la distribución unif(0, 1) cuando a = b = 1.
249. Sea X con distribución beta(a, b). Demuestre que
a
a) E(X) = .
a+b
B(a + n, b)
b) E(X n ) = .
B(a, b)
ab
c) Var(X) = .
(a + b + 1)(a + b)2
136 2.8. Ejercicios
250. Sea X con distribución beta(a, b). Demuestre que
E(X)(1 − E(X))
a) a = E(X) [ − 1 ].
Var(X)
E(X)(1 − E(X))
b) b = (1 − E(X)) [ − 1 ].
Var(X)
E(X)(1 − E(X))
c) a + b = − 1.
Var(X)
251. Recuerde que la función beta se define para cada a, b > 0 de la forma
Z 1
B(a, b) = xa−1 (1 − x)b−1 dx.
0
Demuestre que esta función cumple las siguientes propiedades.
a) B(a, b) = B(b, a).
b) B(a, b) = Γ(a)Γ(b)/Γ(a + b).
c) B(a, 1) = 1/a.
d) B(1, b) = 1/b.
a
e) B(a + 1, b) = B(a, b + 1).
b
a
f ) B(a + 1, b) = B(a, b).
a+b
b
g) B(a, b + 1) = B(a, b).
a+b
h) B(1/2, 1/2) = π.
252. Sea X con distribución beta(1/2, 1/2). En este caso se dice que X
tiene una distribución arcoseno.
a) Calcule y grafique f (x).
b) Demuestre directamente que f (x) es una función de densidad.
c) Demuestre directamente que E(X) = 1/2, y Var(X) = 1/8.
Capı́tulo 2. Variables aleatorias 137
253. Sea X con distribución beta(a, b). Demuestre que para a > 0 y b = 1,
0 si x ≤ 0,
F (x) = xa si 0 < x < 1,
1 si x ≥ 1.
254. Sea X con distribución beta(a, b). Demuestre que para a = 1 y b > 0,
0 si x ≤ 0,
F (x) = b
1 − (1 − x) si 0 < x < 1,
1 si x ≥ 1.
255. Demuestre que X tiene distribución beta(a, b) si, y sólo si, 1 − X tiene
distribución beta(b, a).
Distribución normal
256. Demuestre que la función de densidad de la distribución N(µ, σ 2 )
a) es efectivamente una función de densidad.
b) es simétrica respecto de x = µ.
c) alcanza su máximo en x = µ.
d) tiene puntos de inflexión en x = µ ± σ.
257. Sea X con distribución N(µ, σ 2 ). Demuestre que E(X) = µ y Var(X) =
σ2 .
258. Sea X con distribución N(µ, σ 2 ). Demuestre que para cada n = 0, 1, 2, . . .
n 1 · 3 · 5 · · · (n − 1)σ n si n es par,
E|X − µ| =
0 si n es impar.
259. Sea X con distribución N(µ, σ 2 ). Demuestre que
a) P (µ − σ < X < µ + σ) = 0.68269.
138 2.8. Ejercicios
b) P (µ − 2σ < X < µ + 2σ) = 0.9545.
c) P (µ − 3σ < X < µ + 3σ) = 0.9973.
260. Sea X con distribución normal estándar. Demuestre que para cada
n = 0, 1, . . .
n!
n n/2
si n es par,
E(X ) = 2 (n/2)!
0 si n es impar.
261. Sea X con distribución N(µ, σ 2 ). Demuestre que Y = aX + b, con
a 6= 0, tiene una distribución normal. Encuentre los parámetros co-
rrespondientes.
262. Sea X con distribución N(µ, σ 2 ). Demuestre que la variable aleatoria
−X también tiene una distribución normal. Encuentre los parámetros
correspondientes.
263. Sea X con distribución normal estándar. Demuestre que X 2 tiene
una distribución χ2 (1). Recı́procamente,
√ ¿Será cierto que si Y tiene
2
distribución, χ (1) entonces Y tiene distribución N(0, 1)?
264. Encuentre la función de densidad de la variable aleatoria |X|, cuando
X tiene distribución normal estándar.
265. El cociente de Mills. Sea φ(x) la función de densidad de la dis-
tribución normal estándar, y sea Φ(x) la correspondiente función de
distribución. Demuestre que
a) φ′ (x) + xφ(x) = 0.
1 1 1 − Φ(x) 1 1 3
b) − < < − 3 + 5, para x > 0.
x x3 φ(x) x x x
Distribución log normal
266. Demuestre que la función de densidad de una distribución log normal(µ, σ 2 )
efectivamente lo es.
Capı́tulo 2. Variables aleatorias 139
267. Sea X con distribución log normal(µ, σ 2 ). Demuestre que
a) E(X) = exp(µ + σ 2 /2).
b) Var(X) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
c) E(ln X) = µ.
d) Var(ln X) = σ 2 .
Capı́tulo 3
Vectores aleatorios
En este capı́tulo se extiende el concepto de variable aleatoria con valores
reales a variables aleatorias con valores en Rn . Se estudian además algunos
conceptos importantes relacionados. Recuerde que hemos supuesto que se
tiene siempre como elemento base un espacio de probabilidad (Ω, F , P ).
3.1. Vectores aleatorios
Definición. (Vector aleatorio). Un vector aleatorio es una función
X : Ω → Rn tal que para cualquier conjunto B en B(Rn ), se cumple
que X −1 B es un elemento de F .
Todo vector aleatorio se puede representar en la forma X = (X1 , . . . , Xn )
en donde cada coordenada es una función de Ω en R.
Se demuestra a continuación que la condición que aparece en la definición
anterior es equivalente a solicitar que cada coordenada del vector sea una
variable aleatoria.
141
142 3.1. Vectores aleatorios
(X1 , . . . , Xn )
b b
ω (X1 (ω), . . . , Xn (ω))
Ω Rn
Figura 3.1: Un vector aleatorio es una función de Ω en Rn .
Proposición. Una función (X1 , . . . , Xn ) : Ω → Rn es un vector aleato-
rio si, y sólo si, cada coordenada es una variable aleatoria.
Demostración. Sea (X1 , . . . , Xn ) un vector aleatorio. Entonces la imagen
inversa de cualquier conjunto de Borel de Rn es un elemento de la σ-álge-
bra del espacio de probabilidad. En particular, la imagen inversa del con-
junto B × Ω × · · · × Ω pertenece a F , para cualquier Boreliano B de R.
Pero esta imagen inversa es simplemente X1−1 B. Esto demuestra que X1
es variable aleatoria. De manera análoga se procede con las otras coor-
denadas del vector. Suponga ahora que cada coordenada de una función
(X1 , . . . , Xn ) : Ω → Rn es una variable aleatoria. Considere la colección
B = {B ∈ B(Rn ) : (X1 , . . . , Xn )−1 B ∈ F }. Como cada coordenada es una
variable aleatoria, los conjuntos de Borel de Rn de la forma B1 × · · · × Bn ,
en donde cada factor de este producto es un Boreliano de R, es un elemento
de la colección B. Entonces
B(R) × · · · × B(R) ⊆ B ⊆ B(Rn ).
Es fácil demostrar que la colección B es una σ-álgebra. Asi que
σ(B(R) × · · · × B(R)) ⊆ B ⊆ B(Rn ).
Pero ambos extremos de esta ecuación coinciden. De modo que B = B(Rn ),
y por lo tanto la función (X1 , . . . , Xn ) es un vector aleatorio.
Capı́tulo 3. Vectores aleatorios 143
En consecuencia, es correcto definir un vector aleatorio simplemente como
un vector de variables aleatorias. Puede demostrarse que existe un espacio
de probabilidad en donde el vector aleatorio esta definido.
Para simplificar la escritura donde sea posible se usan únicamente vectores
aleatorios bidimensionales, esto es, de la forma (X, Y ). En la mayorı́a de los
casos, las definiciones y resultados son fácilmente extendidos a dimensiones
mayores. Por ejemplo, el siguiente resultado es análogo al caso unidimensio-
nal. Un vector aleatorio (X, Y ) : Ω → R2 genera el espacio de probabilidad
(R2 , B(R2 ), PX,Y ), en donde B(R2 ) es la σ-álgebra de conjuntos de Borel
de R2 , y PX,Y es una medida de probabilidad definida sobre esta σ-álgebra,
e inducida por el vector aleatorio de la siguiente forma. Para cualquier B
en B(R2 ),
PX,Y (B) = P ((X, Y )−1 B).
Nuestro objetivo es estudiar estas nuevas medidas de probabilidad, o equi-
valentemente, los vectores aleatorios que las generan. En la mayorı́a de los
casos sólo consideraremos vectores aleatorios como los que se definen a con-
tinuación.
Definición. (Vector discreto y continuo). Se dice que el vector
(X, Y ) es discreto si cada coordenada es una variable aleatoria discreta,
y se dice que es continuo en caso de que cada coordenada lo sea.
3.2. Distribución conjunta
Como en el caso de variables aleatorias, todo vector aleatorio induce una
medida de probabilidad, ahora sobre Rn . Esta medida de probabilidad pue-
de estudiarse, de manera equivalente, mediante la función de distribución
conjunta definida a continuación.
144 3.2. Distribución conjunta
Definición. (Función de distribución conjunta). La función de
distribución de un vector (X, Y ), denotada por F (x, y) : R2 → [0, 1], se
define como sigue
F (x, y) = P (X ≤ x, Y ≤ y).
El número F (x, y) es entonces la probabilidad de que el vector aleatorio
tome algún valor en la región (−∞, x] × (−∞, y], la cual se muestra en la
Figura 3.2.
b
(x, y)
Figura 3.2: El número F (x, y) = P (X ≤ x, Y ≤ y) es la probabilidad de que el
vector (X, Y ) tome un valor en la región sombreada.
En palabras, la función F (x, y) es la probabilidad de que X sea menor o
igual a x, y al mismo tiempo Y sea menor o igual a y, esto es simplemente la
probabilidad del evento (X ≤ x)∩ (Y ≤ y). A la función F (x, y) se le conoce
también como función de distribución bivariada de X y Y , y en general a la
distribución conjunta de un vector aleatorio de cualquier dimensión finita se
le llama distribución multivariada. Naturalmente, en el caso unidimensional,
la distribución se llama univariada. Cuando sea necesario especificarlo se
escribe FX,Y (x, y) en lugar de F (x, y), y es evidente la forma de extender
la definición para el caso de vectores aleatorios de más de dos coordenadas.
Con el fin de mantener la notación simple, en la medida de lo posible se
mantiene la correspondencia de las letras, es decir, x es un valor asociado a
X, y y esta asociada a Y .
Capı́tulo 3. Vectores aleatorios 145
Las funciones de distribución conjunta satisfacen propiedades semejantes al
caso unidimensional, se estudian a continuación algunas de ellas.
Proposición. Toda función de distribución conjunta F (x, y) satisface
las siguientes propiedades.
1. lı́m F (x, y) = 1, ambas variables.
x,y→∞
2. lı́m F (x, y) = 0, alguna de las variables.
x,y→−∞
3. F (x, y) es no decreciente en cada variable.
4. F (x, y) es continua por la derecha en cada variable.
5. Si a1 < b1 y a2 < b2 , entonces
F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) ≥ 0.
La demostración de las propiedades (1) a (4) es completamente análoga al
caso unidimensional y por tanto la omitiremos. Respecto a la propiedad (5)
observe que la expresión
F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
corresponde a la probabilidad del evento (a1 < X ≤ b1 , a2 < Y ≤ b2 ). De
modo que (5) se traduce simplemente en solicitar que la probabilidad de
que (X, Y ) tome valores en el rectángulo (a1 , b1 ] × (a2 , b2 ], sea no negativa.
Este rectángulo se muestra en la Figura 3.3.
Ejercicio. Grafique y demuestre que la siguiente función es de distribución.
(
(1 − e−x )(1 − e−y ) si x, y > 0,
F (x, y) =
0 otro caso.
◦
146 3.2. Distribución conjunta
b2 bc b
a2 bc bc
a1 b1
Figura 3.3: La probabilidad asociada al rectángulo (a1 , b1 ] × (a2 , b2 ] es P (a1 <
X ≤ b1 , a2 < Y ≤ b2 ) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ).
A diferencia del caso unidimensional, las propiedades (1) a (4) no son su-
ficientes para asegurar que una función F (x, y) asigna probabilidad no ne-
gativa a cualquier rectángulo. El siguiente ejercicio muestra un ejemplo de
esta situación. Véase también el ejercicio 271.
Ejercicio. Grafique y demuestre que la siguiente función no es de distribución.
(
0 si x + y < 0,
F (x, y) =
1 si x + y ≥ 0.
Este es un ejemplo de una función que tiene el comportamiento lı́mite adecuado en
infinito, es continua por la derecha y no decreciente en cada variable, pero no es
función de distribución pues asigna valores negativos a algunas regiones del plano.
Por ejemplo calcule la probabilidad del cuadrado (−1, 1] × (−1, 1]. ◦
Definición. (Función de distribución conjunta). Una función
cualquiera F (x, y) : R2 → [0, 1], no necesariamente definida en términos
de un vector aleatorio, es una función de distribución conjunta si cumple
con las cinco propiedades enunciadas en la proposición anterior.
Más adelante se mostrarán otros ejemplos concretos de funciones de distri-
bución conjunta.
Capı́tulo 3. Vectores aleatorios 147
Para tres dimensiones se tiene la siguiente definición. Se dice que F (x1 , x2 , x3 ) :
R3 → [0, 1] es una función de distribución si cumple las primeras cuatro pro-
piedades anteriores y la quinta se reemplaza por la siguiente condición: Para
cualesquiera números reales a1 < b1 , a2 < b2 , y a3 < b3 ,
F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )
+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ) ≥ 0.
Se puede demostrar que el lado izquierdo de esta desigualdad corresponde a
la probabilidad del evento (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 ), es
decir, se trata de la probabilidad de que el vector aleatorio tome algún valor
dentro del paralelepı́pedo que se muestra en la Figura 3.4. La condición
anterior establece entonces que este número debe ser mayor o igual a cero.
z
b3
bc
bc
bc
a3 b
bc
bc
bc
bc
a2
b2
a1 y
b1
x
Figura 3.4: Región (a1 , b1 ] × (a2 , b2 ] × (a3 , b3 ].
Más generalmente, se tiene la siguiente definición.
148 3.3. Densidad conjunta
Definición. (Función de distribución conjunta). Una función
F : Rn → [0, 1] es una función de distribución si cumple las prime-
ras cuatro propiedades anteriores y, adicionalmente, para cualesquiera
números reales a1 < b1 , a2 < b2 , . . ., an < bn ,
X
(−1)#a F (x1 , . . . , xn ) ≥ 0,
xi ∈{ai ,bi }
en donde #a es el número de veces que alguna de las variables xi toma
el valor ai en la evaluación de la función F .
Nuevamente la suma que aparece en esta definición corresponde a la pro-
babilidad del evento (a1 < X1 ≤ b1 , . . . , an < Xn ≤ bn ), y la condición
requiere simplemente que este número sea no negativo.
Finalmente enunciamos un resultado que establece la importancia de la fun-
ción de distribución, y cuya demostración puede ser encontrada por ejemplo
en [19]. La prueba no es sencilla pero es análoga al caso unidimensional.
Proposición. Sea F : Rn → [0, 1] una función de distribución. Entonces
existe un espacio de probabilidad, y un vector aleatorio, cuya función de
distribución es F .
Es decir, este resultado garantiza la existencia de un espacio de probabilidad
(Ω, F , P ) en donde se encuentra definido un vector aleatorio (X1 , . . . , Xn )
con función de distribución la especificada. En lo que resta del capı́tulo
hablaremos de vectores aleatorios suponiendo que existe un espacio de pro-
babilidad base asociado.
3.3. Densidad conjunta
Como en el caso unidimensional, algunos vectores tienen asociada otra fun-
ción llamada de probabilidad o de densidad, y la cual se define a continua-
Capı́tulo 3. Vectores aleatorios 149
ción.
Definición. (Función de probabilidad conjunta). La función de
probabilidad de un vector discreto (X, Y ) es la función f (x, y) : R2 →
[0, 1] dada por
f (x, y) = P (X = x, Y = y).
A esta función también se le llama función de probabilidad conjunta de
las variables X y Y .
Es evidente que la función de probabilidad de un vector discreto cumple las
siguientes propiedades.
a) f (x, y) ≥ 0.
XX
b) f (x, y) = 1.
x y
Recı́procamente, toda función no negativa f (x, y) : R2 → [0, 1] que sea es-
trictamente positiva únicamente en un subconjunto discreto de R2 y que
sume uno, se llama función de probabilidad conjunta. La definición de fun-
ción de probabilidad en el caso discreto multidimensional es evidente. Es
claro también que la correspondiente función de distribución se calcula de
la siguiente forma:
X X
F (x, y) = P (X ≤ x, Y ≤ y) = f (u, v).
u≤x v≤y
Ejemplo. La función f (x, y) = 1/4, para x, y = 1, 2, es una función de proba-
bilidad conjunta pues es no negativa y suma uno, corresponde a la distribución
uniforme sobre el conjunto {1, 2} × {1, 2}. La gráfica se muestra en la Figura 3.5.
150 3.3. Densidad conjunta
f (x, y)
1/4 b
b
b
b
2 y
1
1
2
x
Figura 3.5: Función de probabilidad f (x, y) = 1/4, para x, y = 1, 2.
La correspondiente función de distribución es
0 si x < 1 ó y < 1,
X X 1/4
si 1 ≤ x < 2, 1 ≤ y < 2,
F (x, y) = f (u, v) = 2/4 si 1 ≤ x < 2, y ≥ 2,
u≤x v≤y
2/4 si x ≥ 2, 1 ≤ y < 2,
1 si x ≥ 2 y y ≥ 2,
cuya gráfica se encuentra en la Figura 3.6.
Ejemplo. La función definida por f (x, y) = (1/2)x+y para x, y ∈ N, e idéntica-
mente cero fuera de este conjunto discreto, es una función de probabilidad bivariada
pues es no negativa y suma uno. En efecto,
∞ ∞ ∞
X X 1 X 1 2
f (x, y) = =( ) = 1.
x,y=1 x,y=1
2x+y x=1
2 x
Para el caso de vectores continuos se tiene la siguiente definición.
Capı́tulo 3. Vectores aleatorios 151
F (x, y)
2 x
1
1 2
Figura 3.6: Ejemplo de función de distribución discreta.
Definición. (Función de densidad conjunta). Sea (X, Y ) un vec-
tor continuo con función de distribución F (x, y). Se dice que (X, Y ) es
absolutamente continuo si existe una función no negativa e integrable
f (x, y) : R2 → [0, ∞), tal que, para todo (x, y) en R2 , se cumple la
igualdad Z Z
x y
F (x, y) = f (u, v) dv du.
−∞ −∞
A la función f (x, y) se le denota por fX,Y (x, y), y se le llama función de
densidad conjunta de X y Y .
Ası́ como en el caso unidimensional, no existe realmente unicidad para la
función de densidad pues basta modificarla en algunos puntos para ser dis-
tinta pero seguir cumpliendo la igualdad anterior, sin embargo la función
de distribución y por tanto las probabilidades, permanecen sin cambio al-
guno. Es claro que la función de densidad conjunta f (x, y) de un vector
absolutamente continuo cumple las siguientes propiedades.
a) f (x, y) ≥ 0.
152 3.3. Densidad conjunta
Z ∞ Z ∞
b) f (x, y) dx dy = 1.
−∞ −∞
Recı́procamente, toda función no negativa f : R2 → [0, ∞), que integre
uno, se llama función de densidad conjunta. En particular, cuando f (x, y)
es continua,
∂2
f (x, y) = F (x, y).
∂y∂x
Observe que, en el caso absolutamente continuo y conociendo la función de
densidad conjunta, la probabilidad del evento (a ≤ X ≤ b, c ≤ Y ≤ d)
no cambia si se incluyen o se excluyen los extremos de cada intervalo, y se
calcula como la integral doble que se ilustra en la Figura 3.7.
f (x, y)
y
c d
Z b Z d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = f (x, y) dy dx
a c
a
b
x
Figura 3.7: La probabilidad como el volumen bajo una superficie.
Ejemplo. La función f : R2 → [0, ∞) dada por la siguiente expresión es una
función de densidad pues es no negativa e integra uno.
(
1/4 si x, y ∈ [0, 2],
f (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 153
Esta función de densidad conjunta corresponde a la distribución uniforme del vector
(X, Y ) en el cuadrado [0, 2] × [0, 2]. La gráfica se muestra en la Figura 3.8.
f (x, y)
1/4
y
2
x
Figura 3.8: Función de densidad f (x, y) = 1/4, para x, y ∈ [0, 2].
Calculando la doble integral para los distintos valores de x y y, se encuentra que
la función de distribución conjunta es la siguiente.
Z x Z y
F (x, y) = f (u, v)dvdu
−∞ −∞
0 si x < 0 ó y < 0,
xy/4 si 0 ≤ x, y ≤ 2,
= x/2 si 0 ≤ x ≤ 2, y ≥ 2,
y/2 si 0 ≤ y ≤ 2, x ≥ 2,
1 si x ≥ 2 y y ≥ 2.
Cuya gráfica aparece en la Figura 3.9.
◦
154 3.4. Distribución marginal
F (x, y)
2 x
Figura 3.9: Ejemplo de función de distribución continua bivariada.
Ejercicio. Demuestre que la siguiente función es de densidad.
(
x+y si 0 < x, y < 1,
f (x, y) =
0 otro caso.
Encuentre la correspondiente función de distribución y grafique ambas funciones.
Calcule además P (1/3 < X < 1, 0 < Y < 1/2), P (Y > X) y P (X > 1/2). ◦
3.4. Distribución marginal
Dada la función de distribución F (x, y) de un vector aleatorio (X, Y ), es
posible obtener la función de distribución de cada variable aleatoria por
separado mediante el siguiente procedimiento.
Capı́tulo 3. Vectores aleatorios 155
Definición. (Función de distribución marginal). Sea (X, Y ) un
vector con función de distribución F (x, y). A la función
F (x) = lı́m F (x, y)
y→∞
se le conoce como la función de distribución marginal de X. Análoga-
mente se define la función de distribución marginal de Y como
F (y) = lı́m F (x, y).
x→∞
No es difı́cil verificar que las funciones de distribución marginales son efec-
tivamente funciones de distribución univariadas. En el caso de vectores de
dimensión mayor, se puede obtener la distribución marginal de cualquier
subconjunto de variables aleatorios del vector original.
Ejercicio. Encuentre las funciones de distribución marginales del vector (X, Y )
cuya función de distribución es
0 si x < 0 ó y < 0,
2 3
3x y/5 + 2xy /5 si 0 ≤ x < 1 y 0 ≤ y < 1,
2
F (x, y) = 3x /5 + 2x/5 si 0 ≤ x < 1 y y ≥ 1,
3
3y/5 + 2y /5 si x ≥ 1 y 0 ≤ y < 1,
1 si X ≥ 1 y y ≥ 1.
◦
Para el caso de funciones de densidad conjunta, se pueden obtener las fun-
ciones de densidad individuales como indica la siguiente definición.
156 3.4. Distribución marginal
Definición. (Función de densidad marginal). Sea (X, Y ) un vector
absolutamente continuo con función de densidad f (x, y). A la función
Z ∞
f (x) = f (x, y) dy
−∞
se le conoce como la función de densidad marginal de X. Análogamente
se define la función de densidad marginal de Y como
Z ∞
f (y) = f (x, y) dx.
−∞
Si (X, Y ) es un vector discreto la integral se reemplaza por una suma.
Tampoco es difı́cil comprobar que las funciones de densidad marginales son
efectivamente funciones de densidad univariadas. Las dos definiciones an-
teriores pueden extenderse de manera evidente cuando se tenga un vector
aleatorio de cualquier dimensión finita. También es posible calcular las fun-
ciones de densidad y de distribución de (X, Y ) a partir, por ejemplo, de las
funciones correspondientes del vector (X, Y, Z).
Ejercicio. Calcule las funciones de densidad marginales del vector aleatorio dis-
creto (X, Y ) cuya función de probabilidad esta dada por la siguiente tabla.
x\y 1 2 3
−1 1/45 2/45 3/45
0 4/45 5/45 6/45
1 7/45 8/45 9/45
◦
Ejercicio. Calcule las funciones de densidad marginales del vector aleatorio con-
tinuo (X, Y ) cuya función de densidad es
(
3(x2 + y 2 )/16 si 0 < x < y < 2,
f (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 157
Observe que la distribución conjunta determina de manera única a las distri-
buciones marginales. Sin embargo, si lo que se conoce son las distribuciones
marginales, entonces puede haber varias distribuciones conjuntas que pro-
duzcan las marginales dadas. La forma de producir la distribución conjunta
se llama acoplamiento, y la distribución conjunta obtenida se llama a ve-
ces distribución de acoplamiento o cópula. Dos variables aleatorias X y Y
siempre pueden acoplarse de la forma FX,Y (x, y) = FX (x)FY (y), que es el
caso donde se han hecho independientes una de la otra, pero puede haber
otras formas de hacerlo. En el siguiente ejemplo se muestra una situación
concreta en el caso discreto.
Ejemplo. Sean X y Y discretas ambas con distribución uniforme en el conjunto
{0, 1}, es decir, su distribución de probabilidad es
1/2 si x = 0, 1,
f (x) =
0 otro caso.
Sean a ≥ 0 y b ≥ 0 tales que a + b = 1/2. Entonces la siguiente densidad conjunta
tiene como densidades marginales las especificadas para X y para Y .
x\y 0 1
0 a b
1 b a
Observe que esta densidad conjunta es en realidad toda una familia de densidades
conjuntas que producen las densidades marginales especificadas. En este caso X y
Y son independientes si, y sólo si, a = b = 1/4.
◦
158 3.5. Distribución condicional
3.5. Distribución condicional
La siguiente definición es una extensión del concepto elemental de probabi-
lidad condicional de eventos.
Definición. (Función de densidad condicional). Sea (X, Y ) un
vector con función de densidad fX,Y (x, y), y sea y tal que fY (y) 6= 0. A
la función
fX,Y (x, y)
x 7→ fX|Y (x|y) =
fY (y)
se le conoce como la función de densidad condicional de X dado que Y
toma el valor y.
No es difı́cil comprobar que esta función es efectivamente una función de
densidad, tanto en el caso discreto como en el continuo. Observe que el valor
y permanece fijo y la función es vista como una función de la variable real
x, esto puede observarse en el siguiente ejemplo.
Ejemplo. Considere la función de densidad conjunta
24x(1 − y) si 0 < x < y < 1,
fX,Y (x, y) =
0 otro caso.
Es sencillo comprobar que para cualquier valor fijo de y en el intervalo (0, 1), la
función de densidad condicional de X dado Y es la que aparece más abajo. Es tam-
bién inmediato verificar que esta función, vista como función de x, es de densidad,
el valor de y puede entonces considerarse como un parámetro de la distribución.
2x/y 2 si 0 < x < y,
fX|Y (x|y) =
0 otro caso.
Análogamente puede comprobarse que para cualquier x en (0, 1) fijo,
2(1 − y)/(x − 1)2 si x < y < 1,
fY |X (y|x) =
0 otro caso.
◦
Capı́tulo 3. Vectores aleatorios 159
Se pueden definir también funciones de distribución condicionales de la si-
guiente forma.
Definición. (Función de distribución condicional). Sea (X, Y )
un vector aleatorio absolutamente continuo con función de densidad
fX,Y (x, y), y sea y tal que fY (y) 6= 0. A la función
Z x
x 7→ FX|Y (x|y) = fX|Y (u|y) du
−∞
se le conoce como la función de distribución condicional de X dado que Y
toma el valor y. Cuando el vector aleatorio (X, Y ) es discreto la integral
se substituye por la suma correspondiente.
Nuevamente resulta que la función de distribución condicional es efectiva-
mente una función de distribución. En el caso absolutamente continuo y
suponiendo x 7→ fX|Y (x|y) continua, por el teorema fundamental del cálcu-
lo se tiene que
∂
fX|Y (x|y) = F (x|y).
∂x X|Y
Ejemplo. Considere nuevamente la función de densidad conjunta del ejemplo
anterior, fX,Y (x, y) = 24x(1 − y), para 0 < x < y < 1. Entonces
Z x 0 si ≤ 0,
FX|Y (x|y) = fX|Y (u|y) du = x2 /y 2 si 0 < x < y,
−∞
1 si x ≥ y.
◦
Puede también definirse la esperanza condicional de la siguiente forma. Sea
(X, Y ) un vector con función de distribución FX,Y (x, y), y sea y un valor
tal que fY (y) 6= 0. Si X tiene esperanza finita, entonces se define
Z ∞
E(X | Y = y) = x dFX|Y (x|y).
−∞
160 3.6. Independencia
En el siguiente capı́tulo veremos una definición mucho más general de este
concepto.
Ejercicio. Calcule E(X | Y = y) para y = π/4, cuando (X, Y ) es un vector
alsolutamente continuo con función de densidad f (x, y) = (1/2) sen(x + y) para
0 < x, y < π/2.
3.6. Independencia
Podemos ahora definir el importante concepto de independencia de variables
aleatorias. Primero definiremos tal concepto para dos variables aleatorias,
después lo haremos para n variables, y finalmente para una colección arbi-
traria de variables aleatorias.
Definición. (Independencia de dos variables aleatorias). Se
dice que X y Y son independientes, y a menudo se escribe X ⊥ Y , si
para cada par de conjuntos de Borel A, B de R, se cumple la igualdad
P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (X ∈ B). (3.1)
En términos de la siempre existente función de distribución, la independen-
cia de dos variables aleatorias se puede expresar como indica el siguiente
resultado.
Capı́tulo 3. Vectores aleatorios 161
Proposición. (Independencia de dos variables aleatorias). Las
variables aleatorias X y Y son independientes si, y sólo si, para cada
(x, y) en R2 se cumple la igualdad
FX,Y (x, y) = FX (x) · FY (y). (3.2)
Demostración. Si X y Y son independientes, entonces tomando A = (−∞, x]
y B = (−∞, y] en (3.1) se obtiene (3.2). Suponga ahora que se cumple (3.2)
para cualesquiera x y y en R. Defina la colección
A = {A ∈ B(R) : P (X ∈ A, Y ≤ y) = P (X ∈ A) · P (Y ≤ y), ∀ y ∈ R }.
No es difı́cil demostrar que A es una σ-álgebra y usando la hipótesis resulta
que A = B(R). Sea ahora A un elemento cualquiera fijo de B(R). Defina
la colección
B = {B ∈ B(R) : P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B) }.
Se puede comprobar nuevamente que B es una σ-álgebra, y de hecho B =
B(R). De esta forma, para cualquier A y B en B(R), se cumple la condi-
ción (3.1).
El concepto de independencia de variables aleatorias es una extensión de
la misma propiedad para eventos. Cuando la función de densidad conjunta
existe, la condición de independencia de X y Y es equivalente a solicitar
que para cualesquiera números reales x y y, se cumpla la identidad
fX,Y (x, y) = fX (x) · fY (y). (3.3)
En el caso discreto, la afirmación anterior es completamente correcta. Para
el caso continuo hay una observación técnica que es necesario mencionar.
Como en este caso las funciones de densidad pueden ser modificadas sin
que cambie la función de distribución asociada, la igualdad (3.3) puede
162 3.6. Independencia
no cumplirse para cada (x, y) ∈ R2 , entonces se permite que la igualdad
no se cumpla en un conjunto de medida de Lebesgue cero, por ejemplo, un
conjunto numerable de parejas (x, y) en R2 , y entonces habrá independencia
en el caso continuo si se cumple (3.3), salvo conjuntos de medida de Lebesgue
cero.
Ejemplo. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) = 4xy,
para 0 ≤ x, y ≤ 1. La gráfica de esta función aparece en la Figura 3.10.
f (x, y)
1
x
Figura 3.10: Función de densidad f (x, y) = 4xy, para 0 ≤ x, y ≤ 1.
La función de densidad marginal de X se calcula de la siguiente forma. Para 0 ≤
x ≤ 1, Z ∞ Z 1
fX (x) = f (x, y)dy = 4xydy = 2x.
−∞ 0
Análogamente fY (y) = 2y para 0 ≤ y ≤ 1. En consecuencia, X y Y son indepen-
dientes pues para cada par (x, y), se cumple fX,Y (x, y) = fX (x) · fY (y). ◦
Ejercicio. Determine si las variables aleatorias continuas X y Y son indepen-
dientes cuando su función de densidad conjunta es
(
3(x2 + y 2 )/32 si 0 < x, y < 2,
fX,Y (x, y) =
0 otro caso.
Capı́tulo 3. Vectores aleatorios 163
El concepto de independencia puede ser extendido claramente al caso de
varias variables aleatorias de la forma siguiente.
Definición. (Independencia de varias variables aleatorias). Se
dice que las variables X1 , . . . , Xn son independientes si para cualesquiera
Borelianos A1 , . . . , An de R, se cumple
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ).
Más aún, una colección infinita de variables aleatorias es independiente
si cualquier subconjunto finito de ella lo es.
Cuando las variables X1 , . . . , Xn son independientes, tomando conjuntos
Borelianos adecuados puede comprobarse que cualquier subconjunto de ellas
también son independientes. El recı́proco, sin embargo, es en general falso,
en el ejercicio 327 se muestra una situación en donde dos cualesquiera de
las variables X, Y, Z son independientes pero no hay independencia de las
tres variables en su conjunto.
Usando un procedimiento similar al caso de dos variables aleatorias, puede
demostrarse que la condición de independencia de n variables aleatorias
es equivalente a solicitar que para cualquier vector (x1 , . . . , xn ) en Rn se
cumpla la igualdad
FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ).
Y en términos de la función de densidad, cuando ésta exista y salvo un
conjunto de medida cero, la condición es
fX1 ,...,Xn (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).
164 3.6. Independencia
Proposición. Sean X y Y independientes, y sean g y h dos funciones de
R en R, Borel medibles. Entonces las variables aleatorias g(X) y h(Y )
también son independientes.
Demostración. Sean A y B cualesquiera dos conjuntos de Borel de R. En-
tonces
P ( g(X) ∈ A, h(Y ) ∈ B ) = P ( X ∈ g−1 (A), Y ∈ h−1 (B) )
= P ( X ∈ g−1 (A) ) · P ( Y ∈ h−1 (B) )
= P ( g(X) ∈ A ) · P ( h(Y ) ∈ B ).
Este resultado puede extenderse fácilmente al caso n-dimensional, y de esta
forma obtener que la composición de n funciones Borel medibles aplicadas,
respectivamente, a n variables aleatorias independientes, produce nueva-
mente variables aleatorias independientes.
La definición de independencia de dos variables aleatorias puede extender-
se al caso de dos vectores aleatorios de cualquier dimensión de la forma
siguiente.
Definición. (Independencia de dos vectores aleatorios). Se di-
ce que los vectores X = (X1 , . . . , Xn ) y Y = (Y1 , . . . , Ym ) son indepen-
dientes, si para cada A en B(Rn ), y cada B en B(Rm ), se cumple la
igualdad
P (X ∈ A, Y ∈ B) = P (X ∈ A) · P (Y ∈ B). (3.4)
Naturalmente esta definición puede extenderse un poco más para incluir la
independencia de un número finito de vectores aleatorios no necesariamen-
te todos de la misma dimensión. Y nuevamente, una colección infinita de
Capı́tulo 3. Vectores aleatorios 165
vectores aleatorios es independiente si cualquier subcolección finita de ellos
lo es.
Ejercicio. Demuestre que si los vectores (X1 , . . . , Xn ) y (Y1 , . . . , Ym ) son inde-
pendientes, entonces las variables Xi y Yj son independientes para cualquier posible
valor de los ı́ndices i y j. ◦
3.7. Esperanza de una función de un vector
aleatorio
Si (X, Y ) es un vector aleatorio y ϕ : R2 → R es una función Borel medible,
entonces ϕ(X, Y ) es una variable aleatoria y el problema nuevamente es
encontrar su esperanza. Usando directamente la definición, la esperanza de
ϕ(X, Y ) se calcula del siguiente modo:
Z ∞
E[ϕ(X, Y )] = x dFϕ(X,Y ) (x),
−∞
pero, ası́ como en el caso unidimensional, ello requiere encontrar primero
la distribución de ϕ(X, Y ), lo cual puede ser difı́cil en muchos casos. El
siguiente resultado establece una forma alternativa de calcular la esperanza
de ϕ(X, Y ), sin conocer su distribución, pero conociendo, por supuesto, la
distribución del vector (X, Y ).
Teorema (Esperanza de una función de un vector aleato-
rio). Sea (X, Y ) un vector aleatorio, y sea ϕ : R2 → R una función
Borel medible tal que la variable aleatoria ϕ(X, Y ) tiene esperanza fini-
ta. Entonces
Z
E[ϕ(X, Y )] = ϕ(x, y) dFX,Y (x, y). (3.5)
R2
166 3.7. Esperanza de una función de un vector aleatorio
Nuevamente omitiremos la demostración de este resultado. Observe que se
trata de una integral de Riemann-Stieltjes en dos dimensiones. El “incre-
mento” de F en el rectángulo (xi−1 , xi ] × (yj−1 , yj ] es
F (xi , yj ) − F (xi , yj−1 ) − F (xi−1 , yj ) + F (xi−1 , yj−1 ).
Véase nuevamente la Figura 3.3 para comprobar esta expresión. En el caso
cuando X y Y son independientes, este incremento es
F (xi )F (yj ) − F (xi )F (yj−1 ) − F (xi−1 )F (yj ) + F (xi−1 )F (yj−1 )
= (F (xi ) − F (xi−1 ))(F (yj ) − F (yj−1 ))
= ∆F (xi ) ∆F (yj ),
es decir, la integral bidimensional se separa en dos integrales, y se puede
escribir Z
E[ϕ(X, Y )] = ϕ(x, y) dFX (x) dFY (y).
R2
Cuando el vector (X, Y ) es discreto, la fórmula (3.5) se reduce a
X
E[ϕ(X, Y )] = ϕ(x, y) P (X = x, Y = y),
x,y
en donde la suma se efectúa sobre todos los posibles valores (x, y) del vector.
En este caso la demostración del teorema resulta no muy complicada, y se
pide dar los detalles en el siguiente ejercicio.
Ejercicio. Sea (X, Y ) un vector aleatorio discreto con valores en el conjunto
producto {x1 , x2 , . . .} × {y1 , y2 , . . .}, y sea ϕ : R2 → R una función Borel medible
tal que la variable ϕ(X, Y ) tiene esperanza finita. Demuestre que
∞ X
X ∞
E[ϕ(X, Y )] = ϕ(xi , yj ) P (X = xi , Y = yj ).
i=1 j=1
◦
Capı́tulo 3. Vectores aleatorios 167
En el caso cuando (X, Y ) es absolutamente continuo, la expresión (3.5) se
escribe Z
E[ϕ(X, Y )] = ϕ(x, y) fX,Y (x, y) dxdy.
R2
Con ayuda de este resultado podemos ahora demostrar que la esperanza
separa sumas.
Proposición. Sean X y Y con esperanza finita. Entonces
E(X + Y ) = E(X) + E(Y ).
Demostración. Sean ϕ(x, y) = x + y, ϕ1 (x, y) = x, y ϕ2 (x, y) = y. Entonces
E(X + Y ) = E(ϕ(X, Y ))
Z
= (x + y) dFX,Y (x, y)
2
ZR Z
= x dFX,Y (x, y) + y dFX,Y (x, y)
R2 R2
= E(ϕ1 (X, Y )) + E(ϕ2 (X, Y ))
= E(X) + E(Y ).
Proposición. Sean X y Y independientes, y sean g y h dos funciones
Borel medibles tales que g(X) y h(Y ) tienen esperanza finita. Entonces
E[g(X)h(Y )] = E[g(X)] · E[h(Y )].
En particular, cuando X y Y son independientes,
E(X · Y ) = E(X) · E(Y ).
168 3.8. Covarianza
Demostración.
Z
E[g(X) · h(Y )] = g(x) · h(y) dFX,Y (x, y)
2
ZR
= g(x) · h(y) dFX (x) dFY (y)
R2
= E[g(X)] · E[h(Y )].
Nota. En general, el recı́proco de la afirmación anterior es falso, es decir, la
condición E(XY ) = E(X)E(Y ) no es suficiente para poder concluir que X
y Y son independientes. Por ejemplo, considere el vector aleatorio discreto
(X, Y ) con función de probabilidad
x\y −1 0 1
−1 1/5 0 1/5
0 0 1/5 0
1 1/5 0 1/5
Es sencillo verificar que E(XY ) = E(X)E(Y ) = 0, sin embargo X y Y
no son independientes pues P (X = 0, Y = 0) = 1/5, mientras que P (X =
0)P (Y = 0) = 1/25.
Otros ejemplos de esta misma situación pueden encontrarse en el ejerci-
cio 347 en la página 199.
3.8. Covarianza
En esta sección se define y estudia la covarianza entre dos variables aleato-
rias. Una interpretación de este número, ligeramente modificado, será dada
en la siguiente sección.
Capı́tulo 3. Vectores aleatorios 169
Definición. (Covarianza). La covarianza de X y Y , denotada por
Cov(X, Y ), es el número
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] .
Para que la definición anterior tenga sentido es necesario suponer que las
esperanzas E(X), E(Y ) y E(XY ) son finitas. En general cuando se escribe
Cov(X, Y ), se suponen tales condiciones. Se revisan a continuación algunas
propiedades de la covarianza.
Proposición. Sean X y Y variables aleatorias y sea c una constante.
Entonces
1. Cov(X, Y ) = E(XY ) − E(X)E(Y ).
2. Cov(X, Y ) = Cov(Y, X).
3. Cov(X, X) = Var(X).
4. Cov(c, Y ) = 0.
5. Cov(cX, Y ) = c Cov(X, Y ).
6. Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).
7. Si X y Y son independientes, entonces Cov(X, Y ) = 0.
6
8. En general, Cov(X, Y ) = 0 =⇒ X,Y independientes.
Demostración.
170 3.8. Covarianza
1. Por la propiedad de linealidad de la esperanza,
Cov(X, Y ) = E [(X − E(X))(Y − E(Y ))]
= E [XY − Y E(X) − XE(Y ) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ).
2. - 4. Estas propiedades se siguen directamente de la definición.
5. - 6. Esto es consecuencia de la definición y de la linealidad de la esperanza.
7. Esta propiedad se obtiene fácilmente de la primera pues E(XY ) =
E(X)E(Y ) cuando X y Y son independientes.
8. Sea (X, Y ) un vector aleatorio discreto con función de densidad
1/8 si (x, y) ∈ {(−1, −1), (−1, 1), (1, −1), (1, 1)},
fX,Y (x, y) = 1/2 si (x, y) = (0, 0),
0 otro caso.
Entonces X y Y tienen idénticas densidades marginales,
1/4 si x ∈ {−1, 1}, 1/4 si y ∈ {−1, 1},
fX (x) = 1/2 si x = 0, fY (y) = 1/2 si y = 0,
0 otro caso. 0 otro caso.
Puede entonces comprobarse que Cov(X, Y ) = E(XY )−E(X)E(Y ) =
0. Sin embargo X y Y no son independientes pues en particular P (X =
0, Y = 0) = 1/2, mientras que P (X = 0)P (Y = 0) = 1/4.
Observe en particular que la covarianza es una función bilineal y simétrica.
Estas propiedades serán usadas más adelante.
Capı́tulo 3. Vectores aleatorios 171
3.9. Coeficiente de correlación
El coeficiente de correlación de dos variables aleatorias es un número real
que mide el grado de dependencia lineal que existe entre ellas. Su definición
es la siguiente.
Definición. (Coeficiente de correlación). El coeficiente de co-
rrelación de las variables aleatorias X y Y , denotado por ρ(X, Y ), es el
número
Cov(X, Y )
ρ(X, Y ) = p .
Var(X) Var(Y )
Naturalmente en esta definición se necesita suponer que las varianzas son
estrictamente positivas y finitas. La interpretación dada al coeficiente de
correlación se justifica a partir de los siguientes resultados.
Proposición. El coeficiente de correlación satisface las siguientes pro-
piedades.
1. Si X y Y son independientes, entonces ρ(X, Y ) = 0.
2. −1 ≤ ρ(X, Y ) ≤ 1.
3. |ρ(X, Y )| = 1 si, y sólo si, existen constantes a y b tales que, con
probabilidad uno, Y = aX + b, con a > 0 si ρ(X, Y ) = 1, y a < 0
si ρ(X, Y ) = −1.
Demostración.
1. Si X y Y son independientes, entonces Cov(X, Y ) = 0, y por lo tanto
ρ(X, Y ) = 0.
2. Suponga primero que X y Y son tales que E(X) = E(Y ) = 0, y
172 3.9. Coeficiente de correlación
Var(X) = Var(Y ) = 1. Para cualquier valor de λ,
0 ≤ Var(X + λY )
= E (X + λY )2 − E 2 [X + λY ]
= 1 + 2λE(XY ) + λ2 .
El caso λ = 1 produce el resultado E(XY ) ≥ −1, mientras que para
λ = −1 se obtiene E(XY ) ≤ 1. Es decir, −1 ≤ E(XY ) ≤ 1. Ahora se
aplica este resultado a las variables aleatorias (X − µX )/σX y (Y −
µY )/σY , que evidentemente son centradas y con varianza unitaria.
Entonces
X − µX Y − µY
−1 ≤ E[ ( )( ) ] ≤ 1.
σX σY
El término de enmedio es ρ(X, Y ).
3. Si X y Y son tales que Y = aX + b con a 6= 0 y b constantes, entonces
Cov(X, aX + b) a
ρ(X, Y ) = p = .
Var(X)Var(aX + b) |a|
Por lo tanto ρ(X, Y ) = 1 cuando a > 0, y ρ(X, Y ) = −1 cuando a < 0.
Inversamente, suponga que X y Y son tales que |ρ(X, Y )| = 1. Defina
U = (X − µX )/σX y V = (Y − µY )/σY . Entonces claramente E(U ) =
E(V ) = 0, y Var(U ) = Var(V ) = 1. Por lo tanto ρ(U, V ) = E(U V ).
Es fácil ver también que |ρ(U, V )| = |ρ(X, Y )| = 1. Si ρ(U, V ) = 1,
entonces
Var(U − V ) = E[(U − V )2 ] − E 2 (U − V )
= E[(U − V )2 ]
= 2[1 − E(U V )]
= 0.
Esto significa que con probabilidad uno, la variable U −V es constante.
Esto es, para alguna constante c, con probabilidad uno, U − V = c.
Pero esta constante c debe ser cero pues E(U − V ) = 0. Por lo tanto,
X − µX Y − µY
= ,
σX σY
Capı́tulo 3. Vectores aleatorios 173
de donde se obtiene Y = µY + (X − µX )σY /σX . Esto establece una
relación lineal directa entre X y Y . En cambio, si ρ(U, V ) = −1,
entonces
Var(U + V ) = E[(U + V )2 ] − E 2 (U + V )
= E[(U + V )2 ]
= 2[1 + E(U V )]
= 0.
Esto significa nuevamente que con probabilidad uno, la variable U + V
es constante. Esto es, para alguna constante c, con probabilidad uno,
U + V = c. Nuevamente la constante c es cero pues E(U + V ) = 0.
Por lo tanto,
X − µX Y − µY
=− ,
σY σY
de donde se obtiene Y = µY − (X − µX )σY /σX . Esto establece una
relación lineal, ahora inversa, entre X y Y . Uniendo los últimos dos
resultados se obtiene que, cuando |ρ(X, Y )| = 1, con probabilidad uno,
σY σY
Y = [ ρ(X, Y ) ] X + [ µY − ρ(X, Y ) µX ].
σX σX
Ejercicio. Sean X y Y independientes e idénticamente distribuidas. Demuestre
que ρ(X + Y, X − Y ) = 0. ◦
Definición. (Correlación positiva, negativa o nula). Cuando
ρ(X, Y ) = 0 se dice que X y Y son no correlacionadas. Cuando
|ρ(X, Y )| = 1 se dice que X y Y están perfectamente correlacionadas
positiva o negativamente, de acuerdo al signo de ρ(X, Y ).
Nuevamente observe que, en general, la condición ρ(X, Y ) = 0 no es sufi-
ciente para poder afirmar que X y Y son independientes. De hecho esto es
consecuencia del mismo resultado para la covarianza.
174 3.9. Coeficiente de correlación
Ejercicio. Sea X una variable aleatoria discreta con distribución uniforme en el
conjunto {−2, −1, 1, 2}, y defina Y = X 2 . Demuestre que el coeficiente de correla-
ción entre X y Y es cero, y sin embargo X y Y no son independientes. ◦
Adicionalmente en los ejercicios 374 y 375 de la página 204 se muestran si-
tuaciones concretas de este mismo resultado tanto en el caso discreto como
en el continuo. Sin embargo, cuando la distribución de (X, Y ) es normal y
ρ(X, Y ) = 0, entonces efectivamente se cumple que X y Y son independien-
tes.
Proposición. Si (X, Y ) es un vector con distribución normal bivariada
tal que ρ(X, Y ) = 0, entonces X y Y son independientes.
Demostración. Como veremos más adelante, la función de densidad normal
bivariada está dada por la siguiente expresión:
1
f (x, y) = p
2πσ1 σ2 1 − ρ2
1 x − µ1 2 x − µ1 y − µ2 y − µ2 2
exp − ( ) − 2ρ( )( ) + ( ) ,
2(1 − ρ2 ) σ1 σ1 σ2 σ2
en donde µ1 = E(X), σ12 = Var(X), µ2 = E(Y ), σ22 = Var(Y ), y ρ ∈ (−1, 1).
Se pueden calcular directamente las funciones de densidad marginales y
comprobar que
1
f (x) = p exp[−(x − µ1 )2 /2σ12 ]
2πσ12
1
y f (y) = p exp[−(y − µ2 )2 /2σ22 ],
2πσ22
es decir, X tiene distribución N (µ1 , σ12 ), y Y tiene distribución N (µ2 , σ22 ).
Después de hacer algunos cálculos sencillos se puede demostrar que el coefi-
ciente de correlación entre X y Y es ρ, y comprobar finalmente que cuando
Capı́tulo 3. Vectores aleatorios 175
este número es cero, se verifica la igualdad fX,Y (x, y) = fX (x)fY (y), para
cualesquiera valores reales de x y y.
En resumen tenemos la siguiente tabla.
Propiedades del coeficiente de correlación
ρ(X, Y ) ∈ [−1, 1].
|ρ(X, Y )| = 1 si, y sólo si, Y = aX + b, con probabilidad uno.
Si X ⊥ Y, entonces ρ(X, Y ) = 0.
6
En general, ρ(X, Y ) = 0 =⇒ X ⊥ Y.
Si (X, Y ) tiene dist. normal y ρ(X, Y ) = 0, entonces X ⊥ Y .
176 3.10. Esperanza y varianza de un vector aleatorio
3.10. Esperanza y varianza de un vector aleatorio
Definición. (Esperanza y varianza de un vector). Sea X el vec-
tor aleatorio (X1 , . . . , Xn ). Cuando cada coordenada del vector tiene
esperanza finita se define la esperanza de X como el vector numérico
E(X) = (E(X1 ), . . . , E(Xn )).
Si cada coordenada tiene segundo momento finito, entonces la varianza
de X se define como la matriz cuadrada
Var(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xn )
Cov(X2 , X1 )
Var(X2 ) · · · Cov(X2 , Xn )
Var(X) = .. .. .. .
. . .
Cov(Xn , X1 ) Cov(Xn , X2 ) · · · Var(Xn ) n×n
La varianza de un vector X puede expresarse como sigue
E (X − E(X))t (X − E(X)) ,
en donde X t significa transpuesta del vector renglón X. Observe que (X −
E(X))t es un vector columna de dimensión n×1, mientras que (X−E(X)) es
un vector renglón de dimensión 1 × n. De modo que el producto de estos dos
vectores, en el orden indicado, resulta en una matriz cuadrada de dimensión
n × n cuya entrada (i, j) es
E[(Xi − E(Xi ))(Xj − E(Xj ))] = Cov(Xi , Xj ).
Esta matriz también se llama matriz de varianzas y covarianzas, y tiene las
siguientes propiedades.
Capı́tulo 3. Vectores aleatorios 177
Proposición. La matriz Var(X) es simétrica y positiva definida. Esto
último significa que para cualquier vector θ = (θ1 , . . . , θn ) de Rn se
cumple la desigualdad
hVar(X)θ, θi ≥ 0,
en donde h·, ·i denota el producto interior usual de Rn .
Demostración. La simetrı́a se sigue de la igualdad Cov(Xi , Xj ) = Cov(Xj , Xi ).
La propiedad de ser positiva definida se obtiene usando la bilinealidad de la
covarianza,
n
X
hVar(X)θ, θi = Cov(Xi , Xj )θi θj
i,j=1
X n
= Cov(θi Xi , θj Xj )
i,j=1
Xn n
X
= Cov( θi Xi , θj Xj )
i=1 j=1
Xn
= Var( θi Xi ) ≥ 0.
i=1
Cuando la matriz de varianzas y covarianzas tiene todos sus elementos estric-
tamente positivos, se puede definir la matriz de coeficientes de correlación
ρ(X1 , X1 ) · · · ρ(X1 , Xn )
.. ..
. .
ρ(Xn , X1 ) · · · ρ(Xn , Xn ) n×n
o también llamada matriz de correlación. Naturalmente esta matriz también
es simétrica y los elementos de la diagonal son todos iguales a uno.
178 3.11. Distribuciones multivariadas discretas
3.11. Distribuciones multivariadas discretas
En esta sección se estudian algunas distribuciones discretas de vectores alea-
torios. Estas distribuciones son ejemplos particulares de medidas de proba-
bilidad sobre Rn , para algún valor natural de n.
Distribución multinomial. Suponga que se tiene un experimento aleato-
rio con k posibles resultados distintos. Las probabilidades para cada uno de
estos resultados son respectivamente p1 , . . . , pk , en donde p1 + · · · + pk = 1.
Ahora suponga que se tienen n ensayos sucesivos independientes del experi-
mento anterior, y defina las variables aleatorias discretas X1 , . . . , Xk , como
aquellas que registran el número de veces que se obtienen cada uno de los
k posibles resultados en los n ensayos. Observe que la última variable Xk
está determinada por las anteriores, de hecho, Xk = n − X1 − · · · − Xk−1 .
Entonces se dice que el vector X = (X1 , . . . , Xk−1 ) tiene una distribución
multinomial(n, p1 , . . . , pk−1 ), y su función de densidad es
n
px1 1 · · · pxk k
si x1 , . . . , xk = 0, 1, . . . , n
x1 · · · xk
f (x1 , . . . , xk−1 ) = con x1 + · · · + xk = n,
0 otro caso.
Los parámetros de esta distribución son entonces el número de ensayos n,
y las k − 1 probabilidades p1 , . . . , pk−1 . El factor que aparece en paréntesis
en la función de densidad conjunta se conoce como coeficiente multinomial
y se define como sigue
n n!
= .
x1 · · · xk x1 ! · · · xk !
En particular, se dice que el vector (X1 , X2 ) tiene distribución trinomial con
Capı́tulo 3. Vectores aleatorios 179
parámetros (n, p1 , p2 ) si su función de densidad es
n!
f (x1 , x2 ) = px1 px2 (1 − p1 − p2 )n−x1 −x2
x1 ! x2 ! (n − x1 − x2 )! 1 2
para x1 , x2 = 0, 1, . . . , n, tales que x1 + x2 ≤ n.
En el caso general no es difı́cil comprobar que la distribución marginal de la
variable Xi es bin(n, pi ), para i = 1, . . . , k − 1. Puede además demostrarse
que
E(X) = (np1 , . . . , npk−1 ),
npi (1 − pi ) si i = j,
y [Var(X)]ij =
−npi pj 6 j.
si i =
Observe que cuando únicamente hay dos posibles resultados en cada ensa-
yo, es decir k = 2, la distribución multinomial se reduce a la distribución
binomial.
Distribución hipergeométrica multivariada. Suponga que se tienen
N objetos de los cuales N1 son de un primer tipo, N2 son de un segundo tipo
y ası́ sucesivamente con Nk objetos de tipo k. Entonces N1 + · · · + Nk = N .
Suponga que de la totalidad de objetos se obtiene una muestra sin reem-
plazo de tamaño n, y defina la variables X1 , . . . , Xk , como aquellas que
representan el número de objetos seleccionados de cada tipo. Se dice enton-
ces que el vector X = (X1 , . . . , Xk ) tiene una distribución hipergeométrica
multivariada y su función de densidad es
N1 Nk
···
x1 xk
f (x1 , . . . , xk ) =
N
n
en donde cada variable xi toma valores en el conjunto {0, 1, . . . , n} pe-
ro sujeto a la condición xi ≤ Ni , y en donde además debe cumplirse que
180 3.12. Distribuciones multivariadas continuas
x1 + · · · + xk = n. Se dice entonces que el vector (X1 , . . . , Xk ) tiene distribu-
ción hipergeométrica multivariada (N, N1 , . . . , Nk , n). Observe que cuando
únicamente hay dos tipos de objetos, es decir k = 2, la distribución hiper-
geométrica multivariada se reduce a la distribución hipergeométrica univa-
riada. En la sección de ejercicios aparecen expresiones para la esperanza y
varianza de esta distribución.
3.12. Distribuciones multivariadas continuas
Ahora estudiamos algunas distribuciones continuas de vectores aleatorios.
Distribución uniforme bivariada. Se dice que las variables aleatorias
continuas X y Y tienen una distribución conjunta uniforme en el rectángulo
(a, b) × (c, d), si su función de densidad es
1
si x ∈ (a, b), y ∈ (c, d),
f (x, y) = (b − a)(d − c)
0 otro caso.
Se escribe (X, Y ) ∼ unif(a, b) × (c, d). Se puede observar inmediatamente
que las distribuciones marginales son nuevamente uniformes, además X y
Y siempre son independientes. Es fácil también comprobar que E(X, Y ) =
((a + b)/2, (c + d)/2), y que
(b − a)2 /12 0
Var(X, Y ) = .
0 (d − c)2 /12
De manera evidente esta distribución puede extenderse al caso de n dimen-
siones conservándose las mismas propiedades mencionadas.
Distribución normal bivariada. Se dice que las variables aleatorias con-
tinuas X y Y tienen una distribución normal bivariada si su función de
densidad conjunta es
Capı́tulo 3. Vectores aleatorios 181
1
f (x, y) = p
2πσ1 σ2 1 − ρ2
1 x − µ1 2 x − µ1 y − µ2 y − µ2 2
exp − ( ) − 2ρ( )( )+( ) ,
2(1 − ρ2 ) σ2 σ1 σ2 σ2
para cualesquiera valores reales de x y y, y en donde −1 < ρ < 1, σ1 > 0,
σ2 > 0, y µ1 , µ2 son dos constantes reales sin restricción. Se escribe entonces
(X, Y ) ∼ N(µ1 , σ12 , µ2 , σ22 , ρ). Cuando µ1 = µ2 = 0, y σ1 = σ2 = 1, la
distribución se llama normal bivariada estándar, y su gráfica se muestra en
la Figura 3.11 cuando ρ = 0.
f (x, y)
x y
Figura 3.11: Función de densidad normal bivariada estándar.
En el siguiente ejercicio se enuncian algunas propiedades de esta distribu-
ción.
Ejercicio. Sea (X, Y ) un vector con distribución N(µ1 , σ12 , µ2 , σ22 , ρ). Demuestre
que
a) X tiene distribución marginal N(µ1 , σ12 ).
b) Y tiene distribución marginal N(µ2 , σ22 ).
c) ρ(X, Y ) = ρ.
d) X y Y son independientes si, y sólo si, ρ = 0.
182 3.12. Distribuciones multivariadas continuas
e) E(X, Y ) = (µ1 , µ2 ).
σ12 ρσ1 σ2
f) Var(X, Y ) = .
ρσ1 σ2 σ22
Es interesante observar que existen distribuciones bivariadas con densida-
des marginales normales, pero cuya distribución conjunta no lo es. En el
ejercicio 392 en la página 207 se presenta un ejemplo al respecto.
Distribución normal multivariada. Se dice que el vector (X1 , . . . , Xn )
tiene una distribución normal multivariada si su función de densidad es
1 1
f (x) = √ exp [− (x − µ)Σ−1 (x − µ)t ],
(2π)n/2 det Σ 2
en donde x = (x1 , . . . , xn ) y µ = (µ1 , . . . , µn ) son dos vectores de números
reales, Σ es una matriz de dimensión n×n definida positiva, es decir, xΣxt >
0 para cualquier vector x = (x1 , . . . , xn ) de Rn , y Σ−1 es la matriz inversa
de Σ. Como es usual, xt denota el vector transpuesto del vector renglón x.
Cuando n = 1 o n = 2, con Σ adecuada, se obtienen las distribuciones
normal univariada y bivariada mencionadas antes.
Capı́tulo 3. Vectores aleatorios 183
3.13. Ejercicios
Vectores aleatorios
268. Sea (Ω, F , P ) un espacio de probabilidad y sea (X1 , . . . , Xn ) : Ω →
Rn una función tal que cada coordenada es una variable aleatoria.
Demuestre que la siguiente colección es una sub σ-álgebra de B(Rn ).
{B ∈ B(Rn ) : (X1 , . . . , Xn )−1 B ∈ F }.
Distribución conjunta
269. Grafique y demuestre que las siguientes funciones son de distribución.
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x > 0, y ∈ R.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y > 0.
270. Investigue si las siguientes funciones son de distribución.
a) F (x, y) = 1 − e−xy , para x, y > 0.
b) F (x, y) = 1 − e−x−y , para x, y > 0.
271. Demuestre que la siguiente función no es de distribución.
0 si x + y + z < 0,
F (x, y, z) =
1 si x + y + z ≥ 0.
Extienda este resultado al caso n-dimensional.
272. Demuestre que la siguiente función no es de distribución.
mı́n{1, máx{x, y}} si x, y > 0,
F (x, y) =
0 otro caso.
273. Sean F (x) y G(x) dos funciones de distribución. Demuestre o propor-
cione un contraejemplo para las siguientes afirmaciones.
184 3.13. Ejercicios
a) F (x)G(x) es una función de distribución univariada.
b) F (x)G(y) es una función de distribución bivariada.
c) F n (x) es una función de distribución univariada.
d) F n (x)Gm (y) es una función de distribución bivariada.
274. Diga falso o verdadero. Justifique en cada caso.
a) P (X > x, Y > y) = 1 − P (X ≤ x, Y ≤ y).
b) P (X ≤ x, Y ≤ y) ≤ P (X ≤ x).
c) P (X ≤ x) = P (X ≤ x, Y ≤ x) + P (X ≤ x, Y > x).
d) P (X + Y ≤ x) ≤ P (X ≤ x).
e) P (XY < 0) ≤ P (X < 0).
275. Sean X y Y variables aleatorias con función de distribución conjunta
F (x, y). Demuestre que para cualesquiera números reales a < b y
c < d,
P (a < X ≤ b, c < Y ≤ d) = F (b, d) + F (a, c) − F (a, d) − F (b, c).
276. Sean X1 , X2 y X3 variables aleatorias con función de distribución con-
junta F (x1 , x2 , x3 ). Demuestre que para cualesquiera números reales
a1 < b1 , a2 < b2 y a3 < b3 ,
P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 , a3 < X3 ≤ b3 )
= F (b1 , b2 , b3 ) − F (a1 , b2 , b3 ) − F (b1 , a2 , b3 ) − F (b1 , b2 , a3 )
+F (a1 , a2 , b3 ) + F (a1 , b2 , a3 ) + F (b1 , a2 , a3 )
−F (a1 , a2 , a3 ).
277. Sea (X, Y ) un vector con función de distribución F (x, y), y con dis-
tribuciones marginales F (x) y F (y), respectivamente. Demuestre que
para todo x y y en R,
p
F (x) + F (y) − 1 ≤ F (x, y) ≤ F (x)F (y).
Capı́tulo 3. Vectores aleatorios 185
278. Cotas de Fréchet. Sea (X, Y ) un vector con función de distribución
F (x, y), y con distribuciones marginales F (x) y F (y), respectivamente.
Demuestre que para todo x y y en R,
máx{F (x) + F (y) − 1, 0} ≤ F (x, y) ≤ mı́n{F (x), F (y)}.
279. Considere el espacio Ω = (0, 1)×(0, 1) junto con la σ-álgebra B((0, 1)×
(0, 1)) y P la medida de probabilidad uniforme sobre Ω. Sea (X, Y ) el
vector aleatorio definido sobre este espacio de probabilidad dado por
X(ω1 , ω2 ) = ω1 ∧ ω2 y Y (ω1 , ω2 ) = ω1 ∨ ω2 . Demuestre que (X, Y ) es
efectivamente un vector aleatorio y encuentre su función de distribu-
ción.
Densidad conjunta
280. Demuestre que la función de densidad de un vector (X, Y ) absoluta-
mente continuo puede ser encontrada, a partir de la función de distri-
bución, de las siguientes formas alternativas:
∂2
a) f (x, y) = P (X > x, Y > y).
∂x∂y
∂2
b) f (x, y) = − P (X ≤ x, Y > y).
∂x∂y
∂2
c) f (x, y) = − P (X > x, Y ≤ y).
∂x∂y
281. Grafique y demuestre que las siguientes funciones son de densidad.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para 0 ≤ x, y ≤ 1.
c) f (x, y) = 6x2 y, para 0 ≤ x, y ≤ 1.
d) f (x, y) = 9x2 y 2 /4, para −1 ≤ x, y ≤ 1.
e) f (x, y) = e−x−y , para x, y > 0.
186 3.13. Ejercicios
f ) f (x, y) = e−x , para 0 < y < x.
282. Calcule la constante c que hace a f una función de densidad.
a) f (x) = c x, para 0 ≤ x ≤ 1.
b) f (x, y) = c x, para 0 < y < x < 1.
c) f (x, y) = c (x + y), para 0 ≤ x, y ≤ 1.
d) f (x, y) = c (x2 + 12 xy), para 0 < x < 1, 0 < y < 2.
e) f (x, y, z) = c (x + y + z), para 0 ≤ x, y, z ≤ 1.
f ) f (x1 , . . . , xn ) = c (x1 + · · · + xn ), para 0 ≤ x1 , . . . , xn ≤ 1.
283. Encuentre la función de densidad del vector (X, Y ) cuya función de
distribución es
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x > 0, y ∈ R.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y > 0.
284. Encuentre la función de distribución del vector (X, Y ) cuya función
de densidad es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 2e−x−y , para 0 < x < y.
285. Sean f (x) y g(x) dos funciones de densidad. Demuestre o proporcione
un contraejemplo para las siguientes afirmaciones:
a) f (x)g(x) es una función de densidad univariada.
b) f (x)g(y) es una función de densidad bivariada.
286. Sean X y Y independientes ambas con distribución exp(λ). Encuentre
la función de densidad y de distribución de las variables X ∧Y y X ∨Y ,
cada una de ellas por separado y después de manera conjunta.
Capı́tulo 3. Vectores aleatorios 187
Distribución marginal
287. Suponiendo el caso absolutamente
R ∞ continuo, demuestre que la función
de densidad marginal fX (x) = −∞ fX,Y (x, y) dy es efectivamente una
función de densidad univariada.
288. Demuestre que la función de distribución marginal
x 7→ FX (x) = lı́m FX,Y (x, y)
y→∞
es efectivamente una función de distribución univariada.
289. Encuentre las funciones de distribución marginales del vector (X, Y )
cuya función de distribución es
a) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.
2 2
b) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.
290. Encuentre las funciones de densidad marginales del vector (X, Y ) cuya
función de densidad es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para 0 < x, y < 1.
c) f (x, y) = 24x(1 − x − y), para x, y > 0 y x + y < 1.
d) f (x, y) = (x + 2y)/4, para 0 < x < 2 y 0 < y < 1.
e) f (x, y) = 2(4x + y)/5, para 0 < x, y < 1.
f ) f (x, y) = 1/x, para 0 < y < x < 1.
291. Encuentre la constante c que hace a f una función de densidad. En-
cuentre además las funciones de densidad marginales, la función de
distribución conjunta asociada y las funciones de distribución margi-
nales.
a) f (x, y) = c mı́n{x, y} para 0 < x, y < 1.
b) f (x, y) = c máx{x + y − 1, 0} para 0 < x, y < 1.
188 3.13. Ejercicios
292. Sea 0 < a < 1 y defina la función f (x, y) = ax (1 − a)y , para x, y =
1, 2, . . . Demuestre que f (x, y) es una función de densidad y calcule las
funciones de densidad y de distribución marginales. Calcule además
FX,Y (x, y).
293. Sean a y b dos constantes positivas. Calcule las densidades marginales
del vector (X, Y ) con función de densidad uniforme en la región que
aparece a continuación.
y
b
x
−a a
−b
Distribución condicional
294. RDemuestre que la función de distribución condicional x 7→ FX|Y (x|y) =
x
−∞ fX|Y (u|y) du es efectivamente una función de distribución univa-
riada.
295. Demuestre que la función de densidad condicional x 7→ fX|Y (x|y) =
fX,Y (x, y)/fY (y) es efectivamente una función de densidad univariada.
En el caso absolutamente continuo compruebe además que fX|Y (x|y) =
∂/∂x FX|Y (x|y).
296. La distribución exponencial no tiene memoria. Sea X con
distribución exp(λ) y sea t > 0 fijo. Demuestre que la distribución
condicional de X − t, dado que X ≥ t, sigue siendo exp(λ).
297. Calcule las funciones condicionales fX|Y (x|y) y FX|Y (x|y), para las
siguientes funciones de densidad conjunta.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
Capı́tulo 3. Vectores aleatorios 189
b) f (x, y) = 4xy, para 0 < x, y < 1.
c) f (x, y) = 24x(1 − x − y), para x, y > 0 y x + y < 1.
d) f (x, y) = (x + 2y)/4, para 0 < x < 2 y 0 < y < 1.
e) f (x, y) = 2(4x + y)/5, para 0 < x, y < 1.
f ) f (x, y) = 1/x, para 0 < y < x < 1.
298. Calcule las funciones condicionales FX | Y (x | y) y fX | Y (x | y), para las
siguientes funciones de distribución conjunta.
1 1
a) F (x, y) = (1 − e−x )( + tan−1 y), para x ≥ 0.
2 π
b) F (x, y) = 1 − e−x − e−y + e−x−y , para x, y ≥ 0.
299. Se hacen tres lanzamientos de una moneda equilibrada cuyos resulta-
dos llamaremos cara y cruz. Sea X la variable que denota el número de
caras que se obtienen en los dos primeros lanzamientos y sea Y la va-
riable que denota el número de cruces en los dos últimos lanzamientos.
Calcule fX,Y (x, y), fX (x), fY (y) y fY |X (y|x) para x = 0, 1, 2.
300. Sea (X, Y ) un vector con función de densidad f (x, y) = (x + y)/8,
para 0 ≤ x, y ≤ 2, con gráfica como se muestra en la siguiente figura.
f (x, y)
2
x
Compruebe que f (x, y) es una función de densidad y calcule
190 3.13. Ejercicios
a) fX (x). h) FX|Y (x|y).
b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (Y > X).
d) FX (x). k) P (X > 1 | Y < 1).
e) FY (y). l) P (X > 1).
f) fX|Y (x|y). m) P (X + Y > 1).
g) fY |X (y|x). n) P (|X − Y | > 1).
301. Sea (X, Y ) un vector con función de densidad f (x, y) = 8xy, para
0 < x < y < 1.
Grafique y compruebe que f (x, y) es una función de densidad. Calcule
además
a) fX (x). h) FX|Y (x|y).
b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (Y < 1/2, X < 1/2).
d) FX (x). k) P (Y > 1/2 | X > 1/2).
e) FY (y). l) P (XY < 1).
f) fX|Y (x|y). m) P (X + Y < 1).
g) fY |X (y|x). n) P (|X − Y | < 1).
302. Sea (X, Y ) un vector con función de densidad f (x, y) = (x+y) e−x−y /2,
para x, y > 0, cuya gráfica es
Capı́tulo 3. Vectores aleatorios 191
f (x, y)
Compruebe que f (x, y) es una función de densidad y calcule
a) fX (x). h) FX|Y (x|y).
b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (0 < X < 1, 0 < Y < 1).
d) FX (x). k) P (Y > 2 | X < 1).
e) FY (y). l) P (XY < 1).
f) fX|Y (x|y). m) P (X + Y > 1).
g) fY |X (y|x). n) P (|X − Y | < 1).
303. Sea (X, Y ) un vector con función de densidad f (x, y) = 4x(1 − y),
para 0 < x, y < 1, cuya gráfica se muestra a continuación.
f (x, y)
1 1
x y
192 3.13. Ejercicios
Compruebe que f (x, y) es efectivamente una función de densidad y
calcule
a) fX (x). h) FX|Y (x|y).
b) fY (y). i) FY |X (y|x).
c) FX,Y (x, y). j) P (X > 1/2).
d) FX (x). k) P (1/4 < Y < 3/4 | X < 1/2).
e) FY (y). l) P (Y > X 2 ).
f) fX|Y (x|y). m) P (2X − Y > 1).
g) fY |X (y|x). n) P (|X − 2Y | < 1).
304. Sea (X, Y ) un vector con función de densidad f (x, y) = 3y, para
0 < x < y < 1. Compruebe que f (x, y) es efectivamente una función
de densidad y calcule
a) P (X + Y < 1/2).
b) fX (x) y fY (y).
c) E(Y ) y E(Y | X = x).
305. Sea (X, Y ) un vector con distribución uniforme en el conjunto {1, . . . , 6}×
{1, . . . , 6}. Calcule
a) P (X = Y ).
b) P (X + Y ≤ 6).
c) fX (x) y fY (y).
d) E(X | X + Y = 6).
306. Sea (X, Y ) un vector con función de densidad dada por la siguiente
tabla
x\y -1 0 1
1 .3 .05 .05
2 .05 .2 .05
3 .1 .1 .1
Calcule
Capı́tulo 3. Vectores aleatorios 193
a) P (X = 2), P (X + Y = 1) y P (Y ≤ X).
b) fX (x) y fY (y).
c) fY | X (y | x) para x = 1, 2, 3.
d) E(Y | X = x) para x = 1, 2, 3.
307. Sean X y Y independientes ambas con distribución exp(λ). Demuestre
que la distribución condicional de X dado que X + Y = u, es uniforme
en el intervalo (0, u).
308. Sean A y B dos eventos con probabilidad positiva y sea X una variable
con esperanza finita. Demuestre o proporcione un contraejemplo.
a) Si A ⊆ B, entonces E(X | A) ≤ E(X | B).
b) E(X | A) ≤ E(X).
Independencia de variables aleatorias
309. Sean X y Y variables aleatorias discretas con valores en los conjuntos
{x1 , x2 , . . .} y {y1 , y2 , . . .}, respectivamente. Demuestre que X y Y son
independientes si, y sólo si, para cualesquiera valores de los ı́ndices
i, j = 1, 2, . . .
P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ).
310. Sea (X, Y ) un vector aleatorio absolutamente continuo con función de
densidad fX,Y (x, y). Demuestre que las variables X y Y son indepen-
dientes si, y sólo si, para casi todo par de números x y y se cumple
fX,Y (x, y) = fX (x) · fY (y).
311. Demuestre la variable aleatoria constante es independiente de cual-
quier otra variable aleatoria. Inversamente, suponga que X es inde-
pendiente de cualquier otra variable aleatoria, demuestre que X es
constante.
194 3.13. Ejercicios
312. Demuestre que los eventos A y B son independientes si, y sólo si, las
variables aleatorias indicadoras 1A y 1B lo son.
313. Demuestre que si tres variables aleatorias son independientes, entonces
cualesquiera dos de ellas lo son. Más generalmente, demuestre que
cualquier subconjunto finito de un conjunto de variables aleatorias
independientes también lo es.
314. Sean X1 , . . . , Xn independientes, y sean g1 , . . . , gn : R → R funciones
Borel medibles. Demuestre que las variables g1 (X1 ), . . . , gn (Xn ) son
independientes.
315. Demuestre que las variables aleatorias X1 , . . . , Xn son independientes
si, y sólo si, para cualquier vector (x1 , . . . , xn ) en Rn se cumple
FX1 ,...,Xn (x1 , . . . , xn ) = FX1 (x1 ) · · · FXn (xn ).
316. Sean X1 , . . . , Xn independientes, y sea 1 ≤ k < n. Sean g : Rk → R y
h : Rn−k → R funciones Borel medibles. Demuestre que las variables
aleatorias g(X1 , . . . , Xk ) y h(Xk+1 , . . . , Xn ) son independientes.
317. Sean X y Y dos variables aleatorias independientes. Recuerde las de-
finiciones X + = máx{0, X} y X − = − mı́n{0, X}. Demuestre que
cada uno de los siguientes pares de variables aleatorias también son
independientes.
a) X + y Y + .
b) X + y Y − .
c) X − y Y + .
d) X − y Y − .
318. Determine si las siguientes son funciones de densidad de variables alea-
torias independientes.
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 2x, para 0 < x, y < 1.
Capı́tulo 3. Vectores aleatorios 195
c) f (x, y) = 2e−x−y , para 0 < x < y.
d) f (x, y) = e−x−y , para x, y > 0.
e) f (x, y) = 3(x2 + y 2 )/8, para x, y ∈ [−1, 1].
319. Determine si las siguientes son funciones de distribución de variables
aleatorias independientes.
a) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.
2 2
b) F (x, y) = (1 − e−x )(1 − e−y ), para x, y > 0.
320. Demuestre que X y Y son independientes si, y sólo si, cualquiera de
las siguientes condiciones se cumple: Para cada par de números reales
x y y,
a) P (X > x, Y > y) = P (X > x) P (Y > y).
b) P (X ≤ x, Y > y) = P (X ≤ x) P (Y > y).
c) P (X > x, Y ≤ y) = P (X > x) P (Y ≤ y).
321. Demuestre que X y Y son independientes si, y sólo si, para cuales-
quiera números reales a < b y c < d,
P (a < X ≤ b, c < Y ≤ d) = P (a < X ≤ b) · P (c < Y ≤ d).
322. Diga falso o verdadero. Demuestre en cada caso.
a) X, Y independientes ⇒ X, Y 2 independientes.
b) X, Y independientes ⇒ X 2 , Y 2 independientes.
c) X, Y independientes ⇒ X + Y, Y independientes.
d) X, Y independientes ⇒ X + Y, X − Y independientes.
e) X, Y independientes ⇒ XY, Y independientes.
f ) X 2 , Y 2 independientes ⇒ X, Y independientes.
g) X, Y, Z independientes ⇒ X + Y, Z independientes.
h) X, Y, Z independientes ⇒ XY, Z independientes.
196 3.13. Ejercicios
323. Sean X y Y independientes ambas con distribución normal estándar.
Demuestre que Z = aX + bY + c tiene distribución normal cuando
ab 6= 0. Encuentre la esperanza y varianza de Z.
324. Sean X1 , . . . , Xn variables aleatorias independientes cada una con dis-
tribución Ber(p). Calcule P (X1 + · · · + Xn = k) para k = 0, 1, . . . , n.
325. Sean X y Y independientes ambas con distribución unif{1, . . . , n}. En-
cuentre la distribución del vector (U, V ) = (X + Y, X − Y ). Determine
además si las variables U y V son independientes.
326. Sean X y Y independientes con valores enteros naturales y con espe-
ranza finita. Demuestre que
∞
X
E(mı́n{X, Y }) = P (X ≥ n)P (Y ≥ n).
n=1
327. Sean X y Y independientes ambas con distribución uniforme en el
conjunto {−1, 1}. Sea Z = XY . Demuestre que X, Y y Z son inde-
pendientes dos a dos pero no lo son en su conjunto.
328. Sean X y Y independientes con distribución Poisson de parámetros
λ1 y λ2 respectivamente. Demuestre que la distribución condicional
de X dado que X + Y = n es bin(n, λ1 /(λ1 + λ2 )).
329. Encuentre la función de densidad de X + Y cuando X y Y son inde-
pendientes con distribución uniforme en los conjuntos {0, 1, . . . , n} y
{0, 1, . . . , m} respectivamente.
330. Sean X1 , . . . , Xn independientes con distribución geo(p). Demuestre
que la variable X1 + · · · + Xn tiene distribución bin neg(n, p).
331. Sean X y Y independientes. Encuentre la función de distribución de
W en términos de FX (x) y FY (y) cuando
a) W = máx{X, Y }.
b) W = mı́n{X, Y }.
Capı́tulo 3. Vectores aleatorios 197
332. Sean X y Y independientes ambas con distribución exp(λ), y sea a
una constante. Calcule P (máx{X, Y } ≤ aX) y P (mı́n{X, Y } ≤ aX).
333. Sean X y Y independientes con distribución exp(λ1 ) y exp(λ2 ) res-
pectivamente. Demuestre que P (X < Y ) = λ1 /(λ1 + λ2 ).
334. Sean X y Y variables independientes con distribución exponencial
con parámetros λ1 y λ2 respectivamente. Demuestre que mı́n{X, Y }
tiene distribución exponencial con parámetro λ1 + λ2 , y que P (X1 =
mı́n{X1 , X2 }) = λ1 /(λ1 + λ2 ). Este resultado puede extenderse al caso
de n variables independientes exponenciales.
335. Usando la siguiente tabla, construya una función de densidad f (x, y)
de un vector discreto (X, Y ), distinta de la densidad uniforme, con la
condición de que X y Y sean independientes.
x\y 0 1
0 · ·
1 · ·
336. Sea (X, Y ) un vector discreto con distribución de probabilidad unifor-
me en el conjunto {1, . . . , n}×{1, . . . , m}, con n y m enteros positivos.
Demuestre que X y Y son independientes.
337. Sea (X, Y ) un vector con función de densidad f (x, y) = c (1 − x), para
0 < x < y < 1.
a) Encuentre el valor de c que hace a f (x, y) una función de densidad
y grafique esta función.
b) Calcule P (X + Y > 1) y P (X ≤ 1/2).
c) Encuentre las funciones de densidad marginales fX (x) y fY (y).
d) Determine si X y Y son independientes.
338. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) =
c/2x+y , para x = 0, 1, 2, y y = 1, 2. Encuentre el valor de la cons-
tante c y determine si X y Y son independientes. Calcule además las
probabilidades P (X = 1), P (X = 2 | Y = 2) y P (XY = 2).
198 3.13. Ejercicios
339. Sea (X, Y ) un vector aleatorio con función de densidad f (x, y) = 2,
para 0 < x < y < 1.
a) Grafique y demuestre que f (x, y) es una función de densidad.
b) Encuentre las funciones de densidad marginales fX (x) y fY (y).
c) Determine si X y Y son independientes.
d) Calcule P (Y > X) y P (Y > X 2 ).
340. Sea (X, Y ) un vector con función de densidad f (x, y) = c |x + y|, para
−1 < x, y < 1.
a) Encuentre el valor de la constante c que hace a f (x, y) una función
de densidad y grafique esta función.
b) Calcule P (X > 0), P (XY > 0) y P (0 < X + Y < 1).
c) Encuentre las funciones de densidad marginales fX (x) y fY (y).
d) Determine si X y Y son independientes.
341. Sean X y Y independientes con distribución bin(n, p) y bin(m, p),
respectivamente. Demuestre que X+Y tiene distribución bin(n+m, p).
342. Sean X y Y independientes con distribución Poisson con parámetros
λ1 y λ2 respectivamente. Demuestre que X + Y tiene distribución
Poisson(λ1 + λ2 ).
343. Sea (X, Y, Z) un vector aleatorio con función de densidad f (x, y, z) =
8xyz, para 0 < x, y, z < 1.
a) Compruebe que f (x, y, z) es una función de densidad.
b) Calcule P (X < Y < Z) y P (X + Y + Z < 1).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d) Determine si X, Y y Z son independientes.
344. Sea (X, Y, Z) un vector aleatorio con función de densidad f (x, y, z) =
24x, para 0 < x < y < z < 1.
Capı́tulo 3. Vectores aleatorios 199
a) Compruebe que f (x, y, z) es una función de densidad.
b) Calcule P (X + Y < 1) y P (Z − X > 1/2).
c) Encuentre fX,Y (x, y), fX,Z (x, z) y fY,Z (y, z).
d) Determine si X, Y y Z son independientes.
345. Sea X1 , X2 , . . . una sucesión de variables aleatorias independientes
cada una con distribución unif(0, 1). Demuestre que para cualquier
λ > 0,
lı́m P (máx{X1 , . . . , Xn } ≤ 1 − λ/n) = e−λ .
n→∞
346. Sean X y Y independientes con distribución Poisson de parámetros
λ1 y λ2 respectivamente. Demuestre que
λ1
E(X | X + Y = n) = n · .
λ1 + λ2
Esperanza de una función de un vector aleatorio
347. Demuestre que la condición E(XY ) = E(X)E(Y ) no implica necesa-
riamente que X y Y son independientes. Para ello considere cualquiera
de los siguientes ejemplos.
1/8 si (x, y) = (1, 1), (1, −1), (−1, 1), (−1, −1),
a) f (x, y) = 1/2 si (x, y) = (0, 0),
0 otro caso.
b) f (x, y) = 3(x2 + y 2 )/8, para x, y ∈ [−1, 1].
c) X con distribución uniforme en {−1, 0, 1} y Y = 1(X6=0) .
348. Demuestre que si las variables X1 , . . . , Xn son independientes e inte-
grables, entonces E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
349. Sean X y Y independientes. Diga falso o verdadero justificando en
cada caso.
a) Var(X + Y ) = Var(X) + Var(Y ).
200 3.13. Ejercicios
b) Var(X − Y ) = Var(X) − Var(Y ).
c) Var(XY ) = Var(X)Var(Y ).
350. Sean X y Y variables aleatorias independientes con varianza finita.
Demuestre que
Var(XY ) = Var(X) · Var(Y ) + E 2 (X) · Var(Y ) + E 2 (Y ) · Var(X).
351. Sean X1 , . . . , Xn independientes con idéntica distribución y con espe-
ranza finita. Demuestre que si x es tal que fX1 +···+Xn (x) 6= 0, entonces
x
E(X1 | X1 + · · · + Xn = x) = .
n
352. Sea (X, Y ) un vector aleatorio discreto con función de densidad f (x, y)
dada por la siguiente tabla.
x\y -1 0 1
1 .1 .05 .1
2 .06 .2 .04
3 .1 .05 .3
a) Grafique f (x, y) y compruebe que efectivamente se trata de una
función de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Ve-
rifique que ambas funciones son efectivamente de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).
353. Sea (X, Y ) un vector discreto con función de densidad dada por la
siguiente tabla.
x\y 2 4 6
1 2/18 3/18 1/18
2 3/18 5/18 1/18
3 1/18 1/18 1/18
Capı́tulo 3. Vectores aleatorios 201
a) Grafique f (x, y) y compruebe que efectivamente es una función
de densidad conjunta.
b) Calcule y grafique las densidades marginales fX (x) y fY (y). Ve-
rifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).
354. Sea (X, Y ) un vector aleatorio con función de densidad dada por
8xy si 0 < y < x < 1,
f (x, y) =
0 otro caso.
a) Grafique f (x, y) y compruebe que efectivamente es una función
de densidad conjunta.
b) Encuentre y grafique las densidades marginales fX (x) y fY (y).
Verifique que ambas son efectivamente funciones de densidad.
c) Demuestre que X y Y no son independientes.
d) Calcule E(XY ) y fX+Y (u).
Esperanza y varianza de un vector
355. Calcule la esperanza y varianza del vector aleatorio (X, Y ) cuya fun-
ción de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = 4xy, para x, y ∈ [0, 1].
Covarianza
356. Sea a cualquier número real fijo. Encuentre variables aleatorias X y
Y tales que Cov(X, Y ) = a,
202 3.13. Ejercicios
357. Diga falso o verdadero. Demuestre en cada caso.
a) X ≥ 0, Y ≥ 0 ⇒ Cov(X, Y ) ≥ 0.
b) Cov(X, Y ) = 0, Cov(Y, Z) = 0 ⇒ Cov(X, Z) = 0.
c) Cov(X, Y ) > 0, Cov(Y, Z) > 0 ⇒ Cov(X, Z) > 0.
d) Cov(X, Y ) = a, Cov(Y, Z) = a ⇒ Cov(X, Z) = a.
358. Diga falso o verdadero. Demuestre en cada caso.
a) Cov(X, Y ) ≥ 0.
b) Cov(aX, bY ) = ab Cov(X, Y ), con a, b constantes.
c) Cov(X, aY + b) = a Cov(X, Y ) + b, con a, b constantes.
359. Demuestre que
a) Cov(X, Y ) = E(XY ) − E(X)E(Y ).
b) Cov(X, Y ) = Cov(Y, X).
c) Cov(X, X) = Var(X).
d) Cov(X, −X) = −Var(X).
e) Cov(aX + b, Y ) = a Cov(X, Y ), con a, b constantes.
f ) Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ).
360. Demuestre que la condición Cov(X, Y ) = 0 no es suficiente para con-
cluir que X y Y son independientes. En el texto se proporciona un
ejemplo para un vector discreto, construya ahora un ejemplo para un
vector continuo.
361. Demuestre que Var(X ± Y ) = Var(X) + Var(Y ) ± 2 Cov(X, Y ).
362. Demuestre que
n
X X
a) Var(X1 + · · · + Xn ) = Var(Xk ) + 2 Cov(Xj , Xk ).
k=1 j<k
Capı́tulo 3. Vectores aleatorios 203
Xn m
X n X
X m
b) Cov( ai Xi , bj Yj ) = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
363. Sea X1 , . . . , Xn independientes y con varianza finita. Demuestre que
n
X
Var(X1 + · · · + Xn ) = Var(Xk ).
k=1
364. Sean X1 , . . . , Xn independientes y con idéntica distribución. Defina
X̄ = (X1 + · · · + Xn )/n. Demuestre que para cada k = 1, . . . , n,
Cov(Xk − X̄, X̄) = 0.
365. Sea (X, Y ) con distribución uniforme en el conjunto {1, . . . , n}×{1, . . . , n}.
Demuestre que Cov(X, Y ) = 0.
366. Sea (X, Y ) con distribución uniforme en el conjunto (a, b) × (c, d).
Demuestre que Cov(X, Y ) = 0.
367. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla.
x\y -1 0 1
-1 1/12 2/12 3/12
1 3/12 2/12 1/12
368. Calcule la covarianza de X y Y cuya función de densidad conjunta
está dada por la siguiente tabla.
x\y 1 2 3
2 .2 .05 .15
4 .05 .1 .15
6 .05 .1 .15
369. Calcule la covarianza de X y Y , cuya función de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
204 3.13. Ejercicios
b) f (x, y) = 3x2 y, para − 1 < x < 1, 0 < y < 1.
c) f (x, y) = e−x /2, para |y| < x.
d) f (x, y) = e−x−y , para x, y > 0.
2 , µ , σ 2 , ρ).
370. Sea (X, Y ) un vector con distribución normal N(µX , σX Y Y
Demuestre que Cov(X, Y ) = ρ · σX σY .
Coeficiente de correlación
371. Diga falso o verdadero. Demuestre en cada caso.
a) ρ(X, Y ) = 0, ρ(Y, Z) = 0 ⇒ ρ(X, Z) = 0.
b) ρ(X, Y ) > 0, ρ(Y, Z) > 0 ⇒ ρ(X, Z) > 0.
c) ρ(X, Y ) < 0, ρ(Y, Z) < 0 ⇒ ρ(X, Z) < 0.
d) ρ(X, Y ) = 1, ρ(Y, Z) = 1 ⇒ ρ(X, Z) = 1.
e) ρ(X, Y ) = −1, ρ(Y, Z) = −1 ⇒ ρ(X, Z) = −1.
f ) ρ(X, Y )ρ(Y, Z) = −1 ⇒ ρ(X, Z) = −1.
g) ρ(X, Y ) = a, ρ(Y, Z) = a ⇒ ρ(X, Z) = a.
372. Diga falso verdadero. Demuestre en cada caso.
a) ρ(X, Y ) = ρ(Y, X).
b) ρ(aX, Y ) = a ρ(X, Y ), a constante.
c) ρ(X + a, Y ) = ρ(X, Y ), a constante.
d) ρ(aX + b, Y ) = a ρ(X, Y ) + b, a, b constantes.
e) ρ(X1 + X2 , Y ) = ρ(X1 , Y ) + ρ(X2 , Y ).
373. Sea a un número cualquiera en [−1, 1]. Encuentre variables aleatorias
X y Y tales que ρ(X, Y ) = a.
374. Sean X y Y independientes con distribución Ber(p) con p = 1/2.
Demuestre que el coeficiente de correlación entre X + Y y |X − Y | es
cero, y sin embargo estas variables aleatorias no son independientes.
Capı́tulo 3. Vectores aleatorios 205
375. Sea X con distribución normal estándar. Demuestre que el coeficiente
de correlación entre X y X 2 es cero, y sin embargo estas variables no
son independientes. Este resultado puede extenderse al caso en el que
la distribución de X cumple la condición E(X) = E(X 3 ) = 0.
376. Sea X una variable aleatoria y sean a y b constantes. Demuestre que
a) ρ(X, X) = 1.
b) ρ(X, −X) = −1.
c) ρ(X, aX + b) = signo(a).
377. Demuestre que ρ(aX + b, cY + d) = signo(ac) · ρ(X, Y ), en donde
ac 6= 0. Recuerde que
+1 si x > 0,
signo(x) = −1 si x < 0,
0 si x = 0.
378. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta está dada por la siguiente tabla.
x\y 1 2
0 1/8 1/4
1 1/2 1/8
379. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta está dada por la siguiente tabla.
x\y 1 2 3
2 1/9 1/9 1/9
4 1/9 1/9 1/9
6 1/9 1/9 1/9
380. Calcule el coeficiente de correlación de X y Y con distribución con-
junta uniforme en el conjunto
206 3.13. Ejercicios
a) {1, . . . , n} × {1, . . . , n}.
b) [−1, 1] × [−1, 1].
381. Sea X con distribución bin(n, p) y sea Y = n − X. Demuestre que
Cov(X, Y ) = −np(1 − p), y por lo tanto ρ(X, Y ) = −1.
382. Calcule el coeficiente de correlación de X y Y cuya función de densidad
conjunta es
a) f (x, y) = 12 sen(x + y), para x, y ∈ [0, π/2].
b) f (x, y) = e−x /2, para |y| < x.
c) f (x, y) = e−x−y , para x, y > 0.
2 , µ , σ 2 , ρ).
383. Sea (X, Y ) un vector con distribución normal N(µX , σX Y Y
Demuestre que ρ(X, Y ) = ρ.
Distribución multinomial
384. Demuestre que la función de densidad de la distribución multinomial
efectivamente lo es.
385. Sea (X1 , . . . , Xk−1 ) un vector con distribución multinomial de paráme-
tros (n, p1 , . . . , pk−1 ). Demuestre que cada coordenada Xi tiene distri-
bución marginal bin(n, pi ), para i = 1, . . . , k − 1.
386. Sea X = (X1 , . . . , Xk−1 ) un vector con distribución multinomial de
parámetros (n, p1 , . . . , pk−1 ). Demuestre que E(X) = (np1 , . . . , npk−1 )
y que
npi (1 − pi ) si i = j,
[Var(X)]ij =
−npi pj si i 6= j.
Distribución hipergeométrica multivariada
387. Demuestre que la función de densidad de la distribución hipergeométri-
ca multivariada efectivamente lo es.
Capı́tulo 3. Vectores aleatorios 207
388. Sea (X1 , . . . , Xk ) un vector con distribución hipergeométrica multiva-
riada con parámetros (N, N1 , . . . , Nk , n). Demuestre que cada coorde-
nada Xi tiene distribución hipergeométrica univariada con parámetros
(N, Ni , n), para i = 1, . . . , k.
389. Sea X = (X1 , . . . , Xk ) con distribución hipergeométrica multivariada
con parámetros (N, N1 , . . . , Nk , n). Demuestre que
E(X) = (nN1 /N, . . . , nNk /N ), y que
Ni N − Ni N − n
n· N · N · si i = j,
N −1
[Var(X)]ij =
n · Ni · Nj · n − N
si i 6= j.
N N N −1
Distribución normal bivariada
390. Demuestre que la función de densidad de la distribución normal biva-
riada efectivamente lo es.
391. Sea (X, Y ) un vector con distribución normal N(µ1 , σ12 , µ2 , σ22 , ρ). De-
muestre que X tiene distribución marginal N(µ1 , σ12 ), y Y tiene distri-
bución marginal N(µ2 , σ22 ). Véase el siguiente ejercicio para verificar
que el recı́proco de este resultado es falso.
392. Sea f (x, y) la función de densidad normal bivariada estándar con ρ =
0. Defina
2f (x, y) si xy < 0,
g(x, y) =
0 si xy ≥ 0.
Demuestre que g(x, y) es una función de densidad bivariada que no es
normal pero cuyas densidades marginales son normales estándar.
393. Sea (X, Y ) un vector con distribución normal (µX , σX2 , µ , σ 2 , ρ). De-
Y Y
muestre que E(X) = (µX , µY ), y
2
σX ρ · σX · σY
Var(X, Y ) = .
ρ · σX · σY σY2
208 3.13. Ejercicios
394. Sea (X, Y ) un vector con distribución normal N(µ1 , σ12 , µ2 , σ22 , ρ). De-
muestre que la distribución condicional de Y dado que X = x es
normal con media µ2 + ρ(x − µ1 )σ2 /σ1 y varianza σ22 (1 − ρ2 ), y que la
distribución condicional de X dado que Y = y es normal con media
µ1 + ρ(y − µ2 )σ1 /σ2 y varianza σ12 (1 − ρ2 ).
Capı́tulo 4
Esperanza condicional
En este capı́tulo se define el concepto de esperanza condicional de una va-
riable aleatoria respecto de una σ-álgebra, y se estudian algunas de sus
propiedades elementales.
4.1. Esperanza condicional
Definición. (Esperanza condicional). Sea X una variable aleatoria
con esperanza finita, y sea G una sub-σ-álgebra de F . La esperanza con-
dicional de X dado G , es una variable aleatoria denotada por E(X | G ),
que cumple las siguientes tres propiedades.
a) Es G -medible.
b) Tiene esperanza finita.
c) Para cualquier evento G en G ,
E[ E( X | G ) · 1G ] = E[ X · 1G ]. (4.1)
209
210 4.1. Esperanza condicional
Es importante enfatizar que la esperanza condicional, a pesar de su nombre,
no es un número, aunque puede serlo, sino una variable aleatoria. Usando
el teorema de Radon-Nikodym (véase por ejemplo [5]), puede demostrarse
que esta variable aleatoria existe y es única casi seguramente, esto significa
que si existe otra variable aleatoria con las tres propiedades de la definición
anterior, entonces con probabilidad uno coincide con E(X | G ). En lo suce-
sivo cuando se establezca que esta variable aleatoria es igual a alguna otra
variable, la igualdad debe entonces entenderse en el sentido casi seguro, es
decir, que la igualdad se verifica con probabilidad uno.
En la siguiente proposición se muestran algunas relaciones entre la espe-
ranza condicional y los conceptos elementales de esperanza y probabilidad
condicional. Más adelante encontraremos expresiones para E(X | Y ) cuando
Y es discreta o alsolutamente continua.
Proposición. Sea X con esperanza finita, y sean A y B eventos tales
que 0 < P (B) < 1. Entonces
1. E(X | {∅, Ω} ) = E(X).
2. E(1A | {∅, Ω} ) = P (A).
3. E(1A | {∅, B, B c , Ω} ) = P (A | B)1B + P (A | B c )1B c .
Demostración.
1. Esta igualdad se sigue del hecho que la variable E(X | G ) es medible
respecto de G , y de que cualquier función medible respecto de la σ-
álgebra {∅, Ω} es constante. La tercera condición en la definición de
esperanza condicional implica que esta constante debe ser E(X).
2. La igualdad es evidentemente un caso particular de la primera.
3. Observe que toda función medible respecto de la σ-álgebra {∅, B, B c , Ω}
Capı́tulo 4. Esperanza condicional 211
es constante tanto en B como en B c . Además,
E[ E( 1A | G ) · 1B ] = E[ 1A · 1B ] = P (A ∩ B).
Como la variable aleatoria E( 1A | G ) es constante en B, el lado iz-
quierdo es igual a E( 1A | G )(ω) · P (B), para cualquier ω en B. De
donde se obtiene
E( 1A | G )(ω) = P (A|B) para cualquier ω en B.
El análisis es análogo al considerar el evento B c , y de esto se obtiene
la fórmula enunciada.
Observe en particular que la tercera propiedad dice que si la σ-álgebra
G es generada por la partición elemental {B, B c }, entonces la esperanza
condicional es una variable aleatoria que toma dos valores: P (A | B) sobre
B, y P (A | B c ) sobre B c . El siguiente ejercicio es una generalización de este
resultado.
Ejercicio. Sea B1 , . . . , Bn una partición de Ω tal que cada uno de estos elementos
tiene probabilidad estrictamente positiva. Demuestre que para cualquier evento A,
n
X
E(1A | σ{B1 , . . . , Bn }) = P (A | Bi ) · 1Bi .
i=1
Notación. Cuando la σ-álgebra G es igual a σ(Y ), para alguna variable
aleatoria Y , la esperanza condicional se escribe simplemente como E(X | Y )
en lugar de E(X | σ(Y )). Cuando A es un evento a veces se usa el término
P (A | G ) para denotar la esperanza condicional E(1A | G ).
Veamos ahora algunas propiedades generales de la esperanza condicional,
otras propiedades se encuentran en la sección de ejercicios. En un apéndice
212 4.1. Esperanza condicional
al final del texto se encuentra una lista de propiedades de esta variable
aleatoria.
Proposición. Sean X y Y variables aleatorias con esperanza finita y
sea c una constante. Entonces
1. Si X ≥ 0, entonces E(X | G ) ≥ 0.
2. E(cX + Y | G ) = cE(X | G ) + E(Y | G ).
3. Si X ≤ Y , entonces E(X | G ) ≤ E(Y | G ).
4. E(E(X | G )) = E(X).
5. Si X es G -medible, entonces E(X | G ) = X c.s.
En particular, E(c | G ) = c.
6. Si G1 ⊆ G2 , entonces
E(E(X | G1 ) | G2 ) = E(E(X | G2 ) | G1 ) = E(X | G1 ).
Demostración.
1. Por contradicción, suponga que existe G en G con probabilidad es-
trictamente positiva tal que E(X | G ) · 1G < 0. Entonces tomando
esperanzas se obtiene E(X · 1G ) < 0. Por otro lado, como X ≥ 0,
E(X · 1G ) ≥ 0.
2. Esta igualdad es consecuencia de la linealidad de la esperanza no con-
dicional, junto con (4.1) y la propiedad de unicidad.
3. Esto consecuencia de la primera propiedad y la linealidad aplicadas a
la variable Y − X ≥ 0.
4. Esta propiedad se obtiene tomando G = Ω en la igualdad (4.1).
Capı́tulo 4. Esperanza condicional 213
5. Si X es G -medible, entonces X mismo cumple con las tres propiedades
de la definición de esperanza condicional, por la unicidad se obtiene
la igualdad casi segura.
6. Para todo G ∈ G1 ⊆ G2 ,
E(E(E(X | G1 ) | G2 ) · 1G ) = E(E(X | G1 ) · 1G ) = E(X · 1G ).
Análogamente,
E(E(E(X | G2 ) | G1 ) · 1G ) = E(E(X | G2 ) · 1G ) = E(X · 1G ).
En particular observe que la segunda propiedad dice que la esperanza condi-
cional es lineal, mientras que la cuarta propiedad establece que las variables
aleatorias X y E(X | G ) tienen la misma esperanza.
Ejercicio. Demuestre las desigualdades
a) | E(X | G ) | ≤ E( |X| | G ).
b) E |E(X | G )| ≤ E( |X| ).
Antes de continuar recordemos que si A es un evento con probabilidad po-
sitiva y X es una variable aleatoria integrable, entonces la esperanza condi-
cional de X dado A es el número
Z ∞
E(X | A) = x dFX|A (x),
−∞
en donde FX|A (x) = P (X ≤ x | A).
214 4.1. Esperanza condicional
Proposición (Esperanza condicional caso discreto). Sea (X, Y )
un vector aleatorio en donde X tiene esperanza finita, y Y es discreta
tal que toma los valores 0, 1, . . . con probabilidad positiva. Entonces
∞
X
E(X | Y ) = E(X | Y = n) · 1(Y =n) . (4.2)
n=0
Demostración. Observe que los eventos (Y = 0), (Y = 1), . . . constituyen
una partición de Ω, y que los elementos de σ(Y ) son uniones finitas o nu-
merables de estos eventos. Verficaremos que el lado derecho de (4.2) cumple
con las propiedades que definen a E(X | Y ).
1. Claramente el lado derecho de (4.2) es medible respecto de σ(Y ) pues
es constante en cada evento (Y = n), la constante es E(X | Y = n).
P
2. La esperanza de la suma en (4.2) es ∞ n=0 E(X | Y = n)P (Y = n) =
E(X), que es finita pues X es integrable.
3. Finalmente para cada evento (Y = k) se tiene que
∞
X
E( E(X | Y = n)1(Y =n) · 1(Y =k) )
n=0
= E( E(X | Y = k) · 1(Y =k) )
= E(X | Y = k)P (Y = k)
= E(X · 1(Y =k) | Y = k)P (Y = k)
∞
X
= E(X · 1(Y =k) | Y = n)P (Y = n)
n=0
= E(X · 1(Y =k) ).
Esta igualdad puede extenderse a uniones finitas o numerables de eventos
Capı́tulo 4. Esperanza condicional 215
(Y = k). De esta forma, para cualquier evento A en σ(Y ),
∞
X
E( E(X | Y = n)1(Y =n) · 1A ) = E(X · 1A ).
n=0
Ejercicio. Sean X y Y independientes cada una con distribución Ber(p). En-
cuentre E(X | X + Y ). ◦
Finalmente se enuncia sin demostración el caso absolutamente continuo.
Proposición (Esperanza condicional caso abs. continuo). Sea
(X, Y ) un vector absolutamente continuo. Si ω es tal que Y (ω) = y,
entonces
Z ∞
x dFX|Y (x|y) si fY (y) 6= 0,
E(X | Y )(ω) = −∞
0 otro caso,
es decir, E(X | Y )(ω) = E(X | Y = y) cuando fY (y) 6= 0.
Una introducción a la esperanza condicional ligeramente más completa a la
presentada en esta sección, aunque también sencilla y breve, puede encon-
trarse en [24]. Un tratamiento más completo y riguroso puede consultarse
por ejemplo en [18] o [30].
4.2. Varianza condicional
Usando la esperanza condicional se puede obtener la varianza condicional
de una variable aleatoria respecto de una σ-álgebra de la siguiente forma.
216 4.2. Varianza condicional
Definición. (Varianza condicional). Sea X con segundo momento
finito, y sea G una sub-σ-álgebra de F . La varianza condicional de X
dado G , denotada por Var(X | G ), se define como la variable aleatoria
Var(X | G ) = E[ (X − E(X|G ))2 | G ].
Se demuestran a continuación algunas propiedades sencillas de esta variable
aleatoria.
Proposición. Sean X y Y con varianza finita, y sea c una constante.
Entonces
1. Var(X | G ) ≥ 0.
2. Var(c | G ) = 0.
3. Var(cX | G ) = c2 Var(X | G ).
4. Var(X + c | G ) = Var(X | G ).
5. En general, Var(X + Y | G ) 6= Var(X | G ) + Var(Y | G ).
6. Var(X | G ) = E(X 2 | G ) − E 2 (X | G ).
7. Var(X) = E[Var(X | G )] + Var[E(X | G )].
Demostración.
1. - 4. Estas propiedades son una consecuencia inmediata de las propiedades
ya demostradas de la esperanza condicional.
5. Nuevamente es suficiente tomar Y = X para verificar la no igualdad.
6. Esta igualdad se obtiene a partir de la definición al desarrollar el
Capı́tulo 4. Esperanza condicional 217
cuadrado y utilizar las propiedades de linealidad de la esperanza con-
dicional.
7. Tomando esperanza en la igualdad previa se obtiene
E[Var(X | G )] = E(X 2 ) − E[E 2 (X | G )].
Por otro lado,
Var[E(X | G )] = E[E 2 (X | G )] − E 2 [E(X | G )]
= E[E 2 (X | G )] − E 2 (X).
Sumando estas últimas dos expresiones se obtiene el resultado.
Nuevamente cuando la sub-σ-álgebra G es σ(Y ), para alguna variable alea-
toria Y , entonces Var(X | G ) se escribe Var(X | Y ), y puede tomarse como
definición cualquiera de las siguientes igualdades
Var(X | Y ) = E[ (X − E(X | Y ))2 | Y ]
= E(X 2 | Y ) − E 2 (X | Y ).
218 4.3. Ejercicios
4.3. Ejercicios
Esperanza condicional
395. Demuestre que si c es una constante, entonces E(c | G ) = c, para
cualquier sub-σ-álgebra G .
396. Sea A un evento. Demuestre que E(1A | {∅, Ω}) = P (A).
397. Sea X una variable aleatoria con esperanza finita. Demuestre que
E(X | {∅, Ω}) = E(X).
398. Encuentre E(X | Y ) cuando X y Y se distribuyen de manera conjunta
de acuerdo a la siguiente tabla.
x\y -1 0 1
1 2/12 2/12 2/12
2 3/12 2/12 1/12
399. Sea c una constante. Diga falso o verdadero. Demuestre o proporcione
un contraejemplo.
a) E(X | X) = X. d) E(X | cX) = X.
b) E(X 2 | X) = X 2. e) E(X | X + c) = X.
c) E(X | X 2 ) = X. f) E(X | X + Y ) = X.
400. Sea B1 , . . . , Bn una partición finita de Ω en donde cada elemento tiene
probabilidad positiva, y sean b1 , . . . , bn constantes cualesquiera. Defina
la variable aleatoria discreta
n
X
Y = bi 1Bi .
i=1
Sea X con segundo momento finito. Demuestre que la distancia en-
tre X y Y definida por d(X, Y ) = [E(X − Y )2 ]1/2 es mı́nima cuando
Capı́tulo 4. Esperanza condicional 219
bi = E(X | Bi ), es decir, cuando la variable Y es la esperanza P condi-
cional E(X | Y ). Sugerencia: observe que E(X − Y )2 = ni=1 E[(X −
bi )2 | Bi )P (Bi ), y la suma es mı́nima si, y sólo si, cada sumando lo es.
401. Desigualdad de Cauchy-Schwarz condicional. Sean X y Y con
segundo momento finito. Demuestre que
E 2 (XY | G ) ≤ E(X 2 | G ) E(Y 2 | G ).
Sugerencia: proceda como en la desigualdad de Cauchy-Schwarz en el
caso no condicional, vea el ejercicio 190.
402. Desigualdad de Markov condicional. Sea X ≥ 0 integrable.
Demuestre que para cualquier constante ǫ > 0,
1
P (X ≥ ǫ | G ) ≤ E(X | G ).
ǫ
Sugerencia: Vea la demostración de la desigualdad de Markov no con-
dicional.
403. Sean X1 , X2 . . . independientes idénticamente distribuidas y con espe-
ranza finita. Defina Sn = X1 +· · ·+Xn . Demuestre que para 1 ≤ k ≤ n,
a) E(Xk | Sn ) = Sn /n.
b) E(Sk | Sn ) = k Sn /n.
c) E(Xk | σ{Sn , Sn+1 , . . .}) = Sn /n.
d) E(Sk | σ{Sn , Sn+1 , . . .}) = k Sn /n.
Varianza condicional
404. Demuestre que
a) Var(X | {∅, Ω}) = Var(X).
b) Var(1A | {∅, Ω}) = P (A)(1 − P (A)).
Capı́tulo 5
Transformaciones
Sea X una variable aleatoria con distribución conocida, y sea ϕ es una
función tal que Y = ϕ(X) es otra variable aleatoria. ¿Cuál es la distribu-
ción de Y ? En este capı́tulo se da respuesta a esta pregunta tanto en el
caso unidimensional como en el caso de vectores aleatorios. En particular,
se encuentran fórmulas explı́citas para la función de densidad de la suma,
diferencia, producto y cociente de dos variables aleatorias absolutamente
continuas.
5.1. Transformación de una variable aleatoria
En esta sección se estudian un par de resultados que proveen de fórmulas
para la función de densidad de la variable ϕ(X), en términos de la función de
densidad de X. Gráficamente tal transformación se muestra en la Figura 5.1.
221
222 5.1. Transformación de una variable aleatoria
X ϕ
b b b
ω X(ω) ϕ(X(ω))
Ω R R
Y = ϕ(X)
Figura 5.1: La composición Y = ϕ ◦ X.
Teorema de cambio de variable 1. Sea X una variable aleatoria
continua con valores dentro de un intervalo (a, b) ⊆ R, y con función de
densidad fX (x). Sea ϕ : (a, b) → R una función continua, estrictamente
creciente o decreciente, y con inversa diferenciable. Entonces la variable
aleatoria Y = ϕ(X) toma valores dentro del intervalo ϕ(a, b), y tiene
función de densidad
f (ϕ−1 (y)) | d ϕ−1 (y)| para y ∈ ϕ(a, b),
X
fY (y) = dy
0 otro caso.
Demostración. Suponga primero el caso ϕ estrictamente creciente. Entonces
para y ∈ ϕ(a, b),
FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P (X ≤ ϕ−1 (y))
= FX (ϕ−1 (y)).
d −1
Derivando se obtiene fY (y) = fX (ϕ−1 (y)) · ϕ (y). Para ϕ estrictamente
dy
Capı́tulo 5. Transformaciones 223
decreciente,
FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P (X ≥ ϕ−1 (y))
= 1 − FX (ϕ−1 (y)).
d −1
Entonces fY (y) = fX (ϕ−1 (y)) · [− ϕ (y)]. En cualquiera caso se obtiene
dy
el resultado enunciado.
Por ejemplo, la función ϕ(x) = ex , definida sobre toda la recta real cumple
muy bien con las condiciones del teorema anterior. Usaremos esta función
para mostrar con dos ejemplos la forma de aplicar este resultado.
ϕ(x) = ex
Figura 5.2: La transformación ϕ(x) = ex .
Ejemplo. (Distribución log normal). Sea X con distribución N(µ, σ2 ), y sea
ϕ la función estrictamente creciente ϕ(x) = ex , con inversa diferenciable ϕ−1 (y) =
ln y. Entonces la variable aleatoria Y = eX toma valores en el intervalo (0, ∞), y su
distribución se conoce con el nombre de distribución log normal(µ, σ 2 ). Su función
de densidad tiene la siguiente expresión cuya gráfica ha sido mostrada antes en la
Figura 2.23.
√1
(ln y − µ)2
exp [− ] si y > 0,
fY (y) = y 2πσ 2 2σ 2
0 si y ≤ 0.
224 5.1. Transformación de una variable aleatoria
Ejemplo. (Distribución log gama). Sea X con distribución gama(n, λ), y
sea nuevamente ϕ(x) = ex , con inversa diferenciable ϕ−1 (y) = ln y. Entonces la
variable aleatoria Y = eX toma valores en el intervalo (0, ∞), y su distribución se
conoce como distribución log gama(n, λ). Su función de densidad es
n−1
(λ ln y)
λy −λ−1 si y > 0,
fY (y) = Γ(n)
0 si y ≤ 0.
◦
El resultado anterior puede extenderse al caso en el que la transformación ϕ
es estrictamente monótona por pedazos. Se enuncia y demuestra a continua-
ción este resultado cuando la transformación se descompone en dos partes
monótonas, siendo fácil la extensión cuando se tiene un mayor número de
secciones.
Capı́tulo 5. Transformaciones 225
Teorema de cambio de variable 2. Sea X una variable aleatoria
continua con valores dentro de un intervalo (a, c) ⊆ R, y con función
de densidad fX (x). Sea ϕ : (a, c) → R una función tal que admite la
descomposición
ϕ1 (x) si x ∈ (a, b),
ϕ(x) =
ϕ2 (x) si x ∈ (b, c),
en donde a < b < c, y cada una de las funciones ϕ1 (x) : (a, b) → R y
ϕ2 (x) : (b, c) → R es continua, estrictamente creciente o decreciente, y
con inversa diferenciable. Entonces la variable aleatoria Y = ϕ(X) toma
valores dentro del intervalo ϕ(a, c), y tiene función de densidad
d −1
fY (y) = fX (ϕ−1
1 (y)) | ϕ (y)| · 1ϕ1 (a,b) (y)
dy 1
d −1
+ fX (ϕ−1
2 (y)) | ϕ (y)| · 1ϕ2 (b,c) (y).
dy 2
Demostración. La prueba es análoga al caso anterior, únicamente hay que
hacer el análisis sobre cada uno de los intervalos de monotonı́a estricta. Para
cualquier y en R,
FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))]
+ P [(ϕ2 (X) ≤ y) ∩ (X ∈ (b, c))].
Nos interesa el comportamiento de estas probabilidades como funciones de
y, puesto que calcularemos la derivada de ellas para encontrar fY (y). Por
ejemplo, la primera probabilidad, vista como función de y, es
y 7→ P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))],
226 5.1. Transformación de una variable aleatoria
que permanece constante para y ∈ / ϕ1 (a, b), de modo que, suponiendo por
ejemplo ϕ1 creciente, y para y ∈ ϕ1 (a, b),
d d
P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] = P [(X ≤ ϕ−1
1 (y)) ∩ (X ∈ (a, b))]
dy dy
d
= P [a < X ≤ ϕ−11 (y)]
dy
d
= FX (ϕ−1
1 (y))
dy
d −1
= fX (ϕ−1
1 (y)) ϕ (y).
dy 1
De manera análoga se procede respecto del segundo sumando, considerando
también el caso cuando se presenta la monotonı́a decreciente. De esta forma
se obtiene la fórmula enunciada.
Ejemplo. Sea X continua con función de densidad fX (x). Considere la transfor-
mación ϕ(x) = x2 , la cual es estrictamente decreciente en (−∞, 0), y estrictamente
creciente en (0, ∞).
ϕ(x) = x2
bc
x
ϕ1 ϕ2
Figura 5.3: La transformación ϕ(x) = x2 como dos secciones monótonas.
Defina entonces las funciones monótonas ϕ1 (x) = x2 sobre (−∞, 0), y ϕ2 (x) = x2
√ √
sobre (0, ∞). Entonces sus inversas son ϕ−1 −1
1 (y) = − y, y ϕ2 (y) = y. La variable
2
Y = X tiene por lo tanto función de densidad
f (−√y) 1 + f (√y) 1 si y > 0,
X √ X √
fY (y) = 2 y 2 y
0 si y ≤ 0.
Capı́tulo 5. Transformaciones 227
5.2. Transformación de un vector aleatorio
Suponga ahora que (X, Y ) es un vector con función de densidad conocida,
y ϕ(x, y) es una función definida en algún subconjunto de R2 y con valores
en R2 . El problema es encontrar la función de densidad del nuevo vector
ϕ(X, Y ). Gráficamente esta transformación se ilustra en la Figura 5.4.
(X, Y ) ϕ
Ω R2 R2
(U, V ) = ϕ(X, Y )
Figura 5.4: La composición ϕ ◦ (X, Y ).
La transformación ϕ(x, y) se escribirá como (ϕ1 (x, y), ϕ2 (x, y)), y la deriva-
da de la primera componente respecto de x, por ejemplo, se escribe ∂x ϕ1 .
Teorema de cambio de variable 3. Sea (X, Y ) un vector conti-
nuo con valores en I ⊆ R2 , y con función de densidad fX,Y (x, y). Sea
ϕ(x, y) : I → R2 una función continua con inversa ϕ−1 (u, v) diferencia-
ble. Entonces el vector (U, V ) = ϕ(X, Y ) toma valores en ϕ(I) y tiene
función de densidad
(
fX,Y (ϕ−1 (u, v)) |J(u, v)| para (u, v) ∈ ϕ(I),
fU,V (u, v) = (5.1)
0 otro caso,
en donde
∂ ϕ−1 ∂ ϕ−1
J(u, v) = u 1−1 v 1−1 .
∂u ϕ2 ∂v ϕ2
228 5.2. Transformación de un vector aleatorio
Una prueba rigurosa de este teorema resulta ser un tanto elaborada, y por
simplicidad se omite. Sin embargo, puede usarse el siguiente argumento
intuitivo para encontrar la fórmula enunciada. Sea
(U, V ) = ϕ(X, Y ) = (ϕ1 (X, Y ), ϕ2 (X, Y )),
con inversa
(X, Y ) = ϕ−1 (U, V ) = (ϕ−1 −1
1 (U, V ), ϕ2 (U, V )).
Sea A el rectángulo de área infinitesimal de esquinas con coordenadas (x, y), (x+
dx, y), (x, y + dy) y (x + dx, y + dy). Bajo la transformación ϕ las coorde-
nadas de las esquinas del rectángulo A se transforman en las siguientes
coordenadas:
(x, y) 7→ (ϕ1 (x, y), ϕ2 (x, y)).
(x + dx, y) 7→ (ϕ1 (x + dx, y), ϕ2 (x + dx, y))
.
= (ϕ1 (x, y) + ∂x ϕ1 (x, y)dx, ϕ2 (x, y)
+∂x ϕ2 (x, y)dx.
(x, y + dy) 7→ (ϕ1 (x, y + dy), ϕ2 (x, y + dy))
.
= (ϕ1 (x, y) + ∂y ϕ1 (x, y)dy, ϕ2 (x, y)
+∂y ϕ2 (x, y)dy.
(x + dx, y + dy) 7→ (ϕ1 (x + dx, y + dy), ϕ2 (x + dx, y + dy))
.
= (ϕ1 (x, y) + ∂x ϕ1 (x, y)dx + ∂y ϕ1 (x, y)dy,
ϕ2 (x, y) + ∂x ϕ2 (x, y)dx + ∂y ϕ2 (x, y)dy).
Gráficamente la transformación de estos puntos se muestra en la Figura 5.5.
Entonces P ((X, Y ) ∈ A) = P ((U, V ) ∈ ϕ(A)). Por lo tanto
fX,Y (x, y) dxdy = fU,V (u, v) × “Área de ϕ(A)”.
Capı́tulo 5. Transformaciones 229
(ϕ1 + ∂y ϕ1 , ϕ2 + ∂y ϕ2 )
b
y + dy b b ϕ
b
(ϕ1 + ∂x ϕ1 + ∂y ϕ1 ,
A ϕ(A) ϕ2 + ∂x ϕ2 + ∂y ϕ2 )
y b b b
b
(ϕ1 , ϕ2 )
(ϕ1 + ∂x ϕ1 , ϕ2 + ∂x ϕ2 )
x x + dx
Figura 5.5: La transformación ϕ aplicada al rectángulo A.
En donde
“Área de ϕ(A)” = |∂x ϕ1 · ∂y ϕ2 − ∂x ϕ2 · ∂y ϕ1 | dxdy
∂x ϕ1 ∂y ϕ1
=
dxdy
∂x ϕ2 ∂y ϕ2
= |J(x, y)| dxdy.
1
Además |J(x, y)| = . Por lo tanto
|J(u, v)|
dxdy
fX,Y (x, y) dxdy = fU,V (u, v) .
|J(u, v)|
Es decir, fU,V (u, v) = fX,Y (ϕ−1 −1
1 (u, v), ϕ2 (u, v))|J(u, v)|.
Como ejemplo de aplicación de esta fórmula, en las secciones siguientes en-
contraremos expresiones para la función de densidad de la suma, diferencia,
producto y cociente de dos variables aleatorias.
Las fórmulas generales sobre transformaciones encontradas hasta ahora se
resumen en la siguiente tabla, que sólo sirve como referencia general pues
no se mencionan las condiciones precisas de su validez.
230 5.2. Transformación de un vector aleatorio
Transformaciones
d −1
Y = ϕ(X) ⇒ fY (y) = fX (ϕ−1 (y)) | ϕ (y)|.
dy
(U, V ) = ϕ(X, Y ) ⇒ fU,V (u, v) = fX,Y (ϕ−1 (u, v)) |J(u, v)|,
∂u ϕ−1 ∂v ϕ−1
en donde J(u, v) = 1 1 .
∂u ϕ−1
2 ∂v ϕ−1
2
Distribución de la suma
El siguiente resultado proporciona una fórmula para la función de densidad
de la suma de dos variables aleatorias absolutamente continuas.
Proposición. Sea (X, Y ) un vector absolutamente continuo con función
de densidad fX,Y (x, y). Entonces X + Y tiene función de densidad
Z ∞
fX+Y (u) = fX,Y (u − v, v) dv. (5.2)
−∞
Demostración. Sea ϕ : R2 → R2 la transformación ϕ(x, y) = (x + y, y), con
inversa ϕ−1 (u, v) = (u − v, v). El Jacobiano de la transformación inversa es
∂u ϕ−1 ∂v ϕ−1 1 −1
J(u, v) = 1 1
= 0 1 = 1.
∂u ϕ−1
2 ∂v ϕ−1
2
Por la fórmula (5.1), fX+Y,Y (u, v) = fX,Y (u − v, v). Integrando respecto a
v se obtiene (5.2).
Capı́tulo 5. Transformaciones 231
Observe que haciendo el cambio de variable z(v) = u − v en (5.2) se obtiene
la expresión equivalente
Z ∞
fX+Y (u) = fX,Y (z, u − z) dz. (5.3)
−∞
Ello refleja el hecho de que la suma de dos variables aleatorias es conmuta-
tiva. En particular, cuando X y Y son independientes, la fórmula (5.2) se
reduce a
Z ∞
fX+Y (u) = fX (u − v)fY (v) dv (5.4)
−∞
Z ∞
= fX (u − v) dFY (v).
−∞
Integrando respecto de u e intercambiando el orden de las integrales se
obtiene la correspondiente función de distribución
Z ∞
FX+Y (u) = FX (u − v) dFY (v).
−∞
Más generalmente, puede demostrarse que esta fórmula es válida para cua-
lesquiera dos variables aleatorias independientes X y Y , incluyendo el caso
cuando una de ellas es discreta y la otra continua.
En el caso cuando X y Y son discretas, independientes y con valores enteros,
es sencillo verificar que la función de probabilidad de X + Y es, en completa
analogı́a con (5.4),
X
fX+Y (u) = fX (u − k)fY (k),
k
en donde la suma se toma sobre todos los posibles valores enteros k que la
variable aleatoria Y puede tomar.
Puede obtenerse la misma fórmula (5.2) mediante el procedimiento usual
de encontrar primero la función de distribución de X + Y y después deri-
var para encontrar la función de densidad. El procedimiento se muestra a
232 5.2. Transformación de un vector aleatorio
continuación.
FX+Y (u) = P (X + Y ≤ u)
Z Z
= fX,Y (x, y) dy dx
x+y≤u
Z ∞ Z u−x
= fX,Y (x, y) dy dx.
−∞ −∞
La región de integración se muestra en la Figura 5.6.
y
Figura 5.6: Región de integración x + y ≤ u.
Derivando respecto a u se obtiene
Z ∞
fX+Y (u) = fX,Y (x, u − x) dx,
−∞
que corresponde a la expresión (5.3) equivalente a (5.2).
Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.
Use (5.2) para demostrar que X + Y tiene distribución N(0, 2), es decir, su función
de densidad es
1 2
f (u) = √ e−u /4 .
2 π
◦
Capı́tulo 5. Transformaciones 233
Convolución. La convolución de dos funciones de densidad continuas f1
y f2 , es una función de densidad denotada por f1 ∗ f2 , y definida como sigue
Z ∞
(f1 ∗ f2 )(x) = f1 (x − y)f2 (y) dy.
−∞
Más generalmente, la convolución de dos funciones de distribución F1 y F2
es la función de distribución
Z ∞
(F1 ∗ F2 )(x) = F1 (x − y)dF2 (y).
−∞
En consecuencia, si X y Y son dos variables aleatorias independientes con
correspondientes funciones de distribución FX y FY , entonces la función de
distribución de la variable X + Y es la convolución FX ∗ FY . No es difı́cil
comprobar que FX ∗ FY = FY ∗ FX . En particular, la suma de n variables
aleatorias independientes todas con la misma función de distribución F tiene
función de distribución F ∗ · · · ∗ F , que se escribe simplemente como F ∗n .
Observe que hemos denotado la convolución por el mismo sı́mbolo, primero
cuando los argumentos son funciones de densidad y en el otro cuando son
funciones de distribución. Para el caso de funciones de distribución absolu-
tamente continuas, se tiene la relación
d
(F1 ∗ F2 )(x) = (f1 ∗ f2 )(x).
dx
Distribución de la diferencia
Se encontrará ahora una fórmula para la función de densidad de la diferencia
de dos variables aleatorias.
234 5.2. Transformación de un vector aleatorio
Proposición. Sea (X, Y ) un vector absolutamente continuo con función
de densidad fX,Y (x, y). Entonces X − Y tiene función de densidad
Z ∞
fX−Y (u) = fX,Y (u + v, v) dv. (5.5)
−∞
Demostración. Procedemos como en la sección anterior. Sea ϕ : R2 → R2
la transformación ϕ(x, y) = (x − y, y) con inversa ϕ−1 (u, v) = (u + v, v). El
Jacobiano de la transformación inversa es
∂u ϕ−1 ∂v ϕ−1 1 1
J(u, v) = 1 1
−1 =
= 1.
∂u ϕ−1
2 ∂v ϕ2 0 1
Por la fórmula (5.1), fX−Y,Y (u, v) = fX,Y (u + v, v). Integrando respecto a
v se obtiene (5.5).
Con el cambio de variable z(v) = u + v en (5.5) se obtiene la expresión
equivalente Z ∞
fX−Y (u) = fX,Y (z, z − u) dz. (5.6)
−∞
Cuando X y Y son independientes la fórmula (5.5) se reduce a
Z ∞
fX−Y (u) = fX (u + v)fY (v) dv.
−∞
En el caso discreto cuando X y Y son independientes con valores enteros, la
variable X−Y también toma valores enteros, y tiene función de probabilidad
X
fX−Y (u) = fX (u + k)fY (k),
k
en donde la suma se toma sobre todos los posibles valores enteros k que Y
puede tomar.
Capı́tulo 5. Transformaciones 235
Nuevamente se puede demostrar (5.5) mediante el procedimiento usual de
encontrar primero la función de distribución y después derivar para encon-
trar la función de densidad. Por definición,
FX−Y (u) = P (X − Y ≤ u)
Z Z
= fX,Y (x, y) dy dx
x−y≤u
Z ∞Z ∞
= fX,Y (x, y) dy dx.
−∞ x−u
La región de integración aparece en la Figura 5.7.
y
x
u
Figura 5.7: Región de integración x − y ≤ u.
Derivando respecto a u se obtiene (5.6) equivalente a (5.5). A partir de la
fórmula para la suma de dos variables aleatorias se puede construir una
tercera demostración de (5.5). Por la fórmula para la suma,
Z ∞
fX−Y (u) = fX+(−Y ) (u) = fX,−Y (u − v, v) dv.
−∞
Haciendo el cambio de variable x = −v, se obtiene
Z ∞
fX−Y (u) = fX,−Y (u + x, −x) dx
−∞
Z ∞
= fX,Y (u + x, x) dx.
−∞
236 5.2. Transformación de un vector aleatorio
Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.
Use (5.5) para demostrar que X − Y tiene distribución N(0, 2), es decir, su función
de densidad es
1 2
f (u) = √ e−u /4 .
2 π
◦
Ejercicio. Sean X y Y independientes cada una con distribución normal estándar.
En ejercicios anteriores se ha pedido comprobar que tanto X + Y como X − Y tie-
nen distribución N(0, 2). Demuestre que X + Y y X − Y son independientes. ◦
Distribución del producto
Ahora se encontrará una fórmula para la función de densidad del producto
de dos variables aleatorias absolutamente continuas.
Proposición. Sea (X, Y ) un vector absolutamente continuo con función
de densidad fX,Y (x, y). Entonces XY tiene función de densidad
Z ∞
fXY (u) = fX,Y (u/v, v) |1/v| dv. (5.7)
−∞
Demostración. Se usa nuevamente la fórmula (5.1). Sea ϕ : R2 → R2 la
transformación ϕ(x, y) = (xy, y) cuya inversa es, para v 6= 0, ϕ−1 (u, v) =
(u/v, v). El Jacobiano de la transformación inversa es
∂u ϕ−1 ∂v ϕ−1 1/v u/v 2
J(u, v) = 1 1 = = 1/v.
∂u ϕ−1
2 ∂v ϕ−1
2
0 1
Por la fórmula (5.1), para v 6= 0, fXY,Y (u, v) = fX,Y (u/v, v) |1/v|. Integran-
do respecto a v se obtiene (5.7).
Capı́tulo 5. Transformaciones 237
Haciendo x(v) = u/v en (5.7) se obtiene la expresión equivalente
Z ∞
fXY (u) = fX,Y (x, u/x) |1/x| dx. (5.8)
−∞
Cuando X y Y son independientes (5.7) se reduce a
Z ∞
fXY (u) = fX (u/v)fY (v) |1/v| dv.
−∞
Usaremos el procedimiento usual de encontrar primero la función de distri-
bución de XY y después derivar para encontrar la función de densidad. Por
definición,
FXY (u) = P (XY ≤ u)
Z Z
= fX,Y (x, y) dy dx
xy≤u
Z 0 Z ∞ Z ∞ Z u/x
= fX,Y (x, y) dydx + fX,Y (x, y) dydx.
−∞ u/x 0 −∞
La región de integración se muestra en la Figura 5.8.
y y y
x x x
u<0 u=0 u>0
Figura 5.8: Región de integración xy ≤ u.
238 5.2. Transformación de un vector aleatorio
Derivando respecto a u,
Z 0
fXY (u) = fX,Y (x, u/x)(−1/x) dydx
−∞
Z ∞
+ fX,Y (x, u/x)(1/x) dydx.
0
Z ∞
= fX,Y (x, u/x)|1/x| dx,
−∞
que corresponde a (5.8), equivalente a (5.7).
Distribución del cociente
Finalmente se encontrará una fórmula para el cociente de dos variables
aleatorias absolutamente continuas.
Proposición. Sea (X, Y ) un vector absolutamente continuo con función
de densidad fX,Y (x, y) y tal que Y 6= 0. Entonces X/Y tiene función de
densidad Z ∞
fX/Y (u) = fX,Y (uv, v) |v| dv. (5.9)
−∞
Demostración. Procederemos como en las secciones anteriores. Sea ϕ : R2 →
R2 la transformación ϕ(x, y) = (x/y, y) para y 6= 0, y con inversa ϕ−1 (u, v) =
(uv, v). El Jacobiano de la transformación inversa es
∂u ϕ−1 ∂v ϕ−1 v u
J(u, v) = 1 1
−1 =
= v.
∂u ϕ−1
2 ∂ v ϕ2 0 1
Por la fórmula (5.1), fX/Y,Y (u, v) = fX,Y (uv, v) |v|, de donde se obtiene (5.9)
integrando respecto de v.
Capı́tulo 5. Transformaciones 239
Haciendo x(v) = uv en (5.9) se obtiene la expresión equivalente
Z ∞
fX/Y (u) = fX,Y (x, x/u) |x/u2 | dx. (5.10)
−∞
Observe nuevamente que cuando X y Y son independientes, el integrando
en la fórmula (5.9) se escribe como el producto de las densidades marginales.
Ahora usaremos el procedimiento usual de encontrar primero la función de
distribución y después derivar para encontrar la función de densidad.
FX/Y (u) = P (X/Y ≤ u)
Z Z
= fX,Y (x, y) dx dy
x/y≤u
Z 0 Z ∞ Z ∞ Z uy
= fX,Y (x, y) dx dy + fX,Y (x, y) dx dy.
−∞ uy 0 −∞
La región de integración se muestra en la Figura 5.9.
y y y
x x x
u<0 u=0 u>0
Figura 5.9: Región de integración x/y ≤ u.
Derivando respecto a u,
Z 0 Z ∞
fX/Y (u) = − fX,Y (uy, y)y dy + fX,Y (uy, y)y dy
−∞ 0
Z ∞
= fX,Y (uy, y)|y| dy.
−∞
240 5.2. Transformación de un vector aleatorio
A partir de la fórmula para el producto de dos variables aleatorias se puede
construir una tercera demostración de (5.9) de la siguiente forma.
Z ∞
fX/Y (u) = fX·(1/Y ) (u) = fX,1/Y (u/v, v) |1/v| dv.
−∞
Haciendo el cambio de variable x = 1/v se obtiene
Z ∞
fX/Y (u) = fX,1/Y (ux, 1/x)|x| dx
Z−∞
∞
= fX,Y (ux, x)|x| dx.
−∞
Ejercicio. Sean X y Y independientes con distribución normal estándar. De-
muestre que X/Y tiene distribución Cauchy, es decir, su función de densidad es
1
f (u) = , para − ∞ < u < ∞.
π(1 + u2 )
◦
Las fórmulas encontradas se resumen en la siguiente tabla.
Capı́tulo 5. Transformaciones 241
Fórmulas para la suma, diferencia, producto y cociente
de dos variables aleatorias absolutamente continuas
Z ∞
fX+Y (u) = fX,Y (u − v, v) dv
−∞
Z ∞
fX−Y (u) = fX,Y (u + v, v) dv
−∞
Z ∞
fXY (u) = fX,Y (u/v, v) |1/v| dv
−∞
Z ∞
fX/Y (u) = fX,Y (uv, v) |v| dv
−∞
242 5.3. Ejercicios
5.3. Ejercicios
Transformación de una variable aleatoria
405. Sea X con distribución unif(0, 1) y sea λ > 0. Demuestre que la varia-
ble aleatoria Y = −(ln X)/λ tiene distribución exp(λ).
406. Sea X con distribución exp(λ). Encuentre la función de densidad y de
distribución de la variable Y = 1 − exp(−λX).
407. Encuentre la distribución de Y = 1/X cuando X tiene distribución
a) unif(0, 1).
b) exp(λ).
408. Sea X continua con función de densidad fX (x). Demuestre que
(
fX (−x) + fX (x) si x ≥ 0,
f|X| (x) =
0 si x < 0.
409. Sea X con distribución uniforme en el intervalo (0, 2π). Encuentre la
función de densidad de la variable
a) Y = sen(X).
b) Y = cos(X).
410. Encuentre la distribución de Y = X n para cada n en N, cuando X
tiene distribución
a) unif(0, 1).
b) unif(−1, 1).
c) exp(λ).
411. Sea X con distribución unif(−1, 1). Encuentre la función de densidad
de X 2 .
Capı́tulo 5. Transformaciones 243
412. Sea X absolutamente continua con función de distribución F (x). De-
muestre que Y = F (X) tiene distribución unif[0, 1].
413. Encuentre la función de densidad de Y = 1/X cuando X tiene función
de densidad
1/2 si 0 < x ≤ 1,
fX (x) = 1/(2x2 ) si x > 1,
0 si x ≤ 0.
414. Sea X con distribución unif(a, b). Encuentre la distribución de la va-
riable aleatoria Y = X/(b − X).
Transformación de un vector aleatorio
415. Sean X y Y independientes ambas con distribución unif(0, 1). Encuen-
tre la función de densidad del vector
a) (X, X + Y ).
b) (X + Y, X − Y ).
416. Sean X y Y independientes ambas con distribución unif(−1, 1). En-
cuentre la función de densidad del vector
a) (X + Y, X − Y ).
b) (X, |Y − X|).
c) (X − Y, Y − X).
417. Sea (X, Y ) un vector con distribución uniforme en el cı́rculo unitario
{(x, y) : x2 + y 2 ≤ 1}. Encuentre la función de densidad del vector
p
(R, Θ) = ( X 2 + Y 2 , arctan(Y /X)).
418. Sean X y Y independientes cada una con distribución exp(λ). De-
muestre que el vector (X, X + Y ) tiene función de densidad
2 −λv
λ e para 0 < u < v,
f (u, v) =
0 otro caso.
244 5.3. Ejercicios
419. Sea (X, Y ) con función de densidad fX,Y (x, y). Demuestre que la
función de densidad del vector (U, V ) = (X + Y, X/(X + Y )) es
fU,V (u, v) = fX,Y (uv, u(1 − v))u.
Distribución de la suma
420. Encuentre la función de densidad de la suma de dos variables aleatorias
cuya función de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 8xy, para 0 < x < y < 1.
e) f (x, y) = 4x(1 − y), para 0 < x, y < 1.
421. Encuentre la función de densidad de la suma de dos variables aleatorias
independientes cada una de ellas con distribución
a) unif(0, 1).
b) exp(λ).
422. Encuentre la función de densidad de la suma de dos variables aleatorias
independientes cada una de ellas con función de densidad
a) f (x) = 2x, para 0 < x < 1.
b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.
423. Encuentre la función de densidad de la suma de dos variables aleatorias
independientes X y Y , tales que
a) X ∼ unif(−1, 0) y Y ∼ unif(0, 1).
b) X ∼ unif(0, 1) y Y ∼ exp(λ).
Capı́tulo 5. Transformaciones 245
424. Sea (X, Y, Z) un vector absolutamente continuo. Demuestre que la
variable X + Y + Z tiene función de densidad
Z ∞Z ∞
f (u) = fX,Y,Z (u − y − z, y, z) dydz.
−∞ −∞
Aplique esta fórmula para encontrar la función de densidad de la suma
de tres variables aleatorias independientes, en donde cada sumando
tiene distribución unif(0, 1).
425. Sea (X1 , . . . , Xn ) un vector aleatorio absolutamente continuo. De-
muestre que la variable X1 + · · · + Xn tiene función de densidad
Z ∞ Z ∞
f (u) = ··· fX1 ,...,Xn (u − v2 − · · · − vn , v2 , . . . , vn ) dv2 · · · dvn .
−∞ −∞
Aplique esta fórmula para encontrar la función de densidad de la suma
de n variables aleatorias independientes, en donde cada sumando tiene
distribución unif(0, 1).
426. Encuentre la función de densidad de la suma de dos variables aleatorias
con distribución conjunta uniforme en el cuadrado (−1, 1) × (−1, 1).
427. Encuentre la función de densidad de la suma de tres variables aleato-
rias con distribución conjunta uniforme en el cubo (−1, 1) × (−1, 1) ×
(−1, 1).
428. Encuentre la función de densidad de la suma de n variables aleatorias
con distribución conjunta uniforme en el hipercubo
(−1, 1) × · · · × (−1, 1) .
| {z }
n
429. Demuestre que la suma de dos variables aleatorias independientes, ca-
da una de ellas con distribución normal, tiene nuevamente distribución
normal, con media la suma de las medias, y varianza la suma de las
varianzas.
246 5.3. Ejercicios
430. Sean X1 , . . . , Xn independientes en donde Xk tiene distribución N(µk , σk2 )
para k = 1, . . . , n. Sean c1 , . . . , cn constantes dadas, no todas cero. De-
muestre que
Xn Xn n
X
ck Xk ∼ N( ck µk , c2k σk2 ).
k=1 k=1 k=1
431. Sean X1 , . . . , Xn independientes y con idéntica distribución N(µ, σ 2 ).
Demuestre que el promedio (X1 +· · ·+Xn )/n tiene distribución N(µ, σ 2 /n).
432. Demuestre que la suma de dos variables aleatorias independientes, ca-
da una de ellas con distribución exp(λ), tiene distribución gama(2, λ).
Más generalmente, demuestre que la suma de n variables aleatorias
independientes, cada una de ellas con distribución exp(λ), tiene dis-
tribución gama(n, λ).
433. Demuestre que la suma de dos variables aleatorias independientes con
distribución gama(n, λ) y gama(m, λ), tiene distribución gama(n +
m, λ).
434. Sean X y Y son discretas, independientes y con valores enteros. De-
muestre que X
fX+Y (u) = fX (u − k)fY (k),
k
en donde la suma se efectúa sobre todos los posibles valores enteros k
que la variable aleatoria Y puede tomar.
Distribución de la diferencia
435. Sea (X, Y, Z) un vector absolutamente continuo con función de densi-
dad fX,Y,Z (x, y, z). Demuestre que la variable X − Y − Z tiene función
de densidad
Z ∞Z ∞
fX−Y −Z (u) = fX,Y,Z (u + y + z, y, z) dydz.
−∞ −∞
Capı́tulo 5. Transformaciones 247
Aplique esta fórmula para encontrar la función de densidad de X −
Y − Z, cuando estas variables son independientes y cada una de ellas
tiene distribución unif(0, 1).
436. Sea (X, Y, Z) un vector aleatorio absolutamente continuo. Encuentre
una fórmula para la función de densidad de la variable X + Y − Z.
437. Sea (X, Y, Z) un vector aleatorio absolutamente continuo. Encuentre
una fórmula para la función de densidad de la variable X − Y + Z.
438. Encuentre la función de densidad de X − Y , para (X, Y ) un vector
con función de densidad conjunta
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) fX,Y (x, y) = 8xy, para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y), para 0 < x, y < 1.
439. Encuentre la función de densidad de X − Y , cuando X y Y son inde-
pendientes y ambas con distribución
a) unif(0, 1).
b) exp(λ).
440. Encuentre la función de densidad de X − Y , cuando X y Y son inde-
pendientes y ambas con función de densidad
a) f (x) = 2x, para 0 < x < 1.
b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.
441. Encuentre la función de densidad de X − Y , cuando X y Y son inde-
pendientes y tales que
a) X ∼ unif(0, 1) y Y ∼ unif(1, 2).
248 5.3. Ejercicios
b) X ∼ unif(0, 1) y Y ∼ exp(λ).
442. Sea a una constante. Demuestre que la diferencia de dos variables alea-
torias independientes ambas con distribución uniforme en el intervalo
(a − 1/2, a + 1/2) tiene función de densidad
(
1 − |u| si − 1 < u < 1,
f (u) =
0 otro caso.
443. Demuestre que la diferencia de dos variables aleatorias independientes,
cada una de ellas con distribución normal, tiene nuevamente distribu-
ción normal, con media la diferencia de las medias, y varianza la suma
de las varianzas.
444. Sean X y Y son discretas, independientes y con valores enteros. De-
muestre que X
fX−Y (u) = fX (u + k)fY (k),
k
en donde la suma se efectúa sobre todos los posibles valores enteros k
que la variable aleatoria Y puede tomar.
Distribución del producto
445. Encuentre la función de densidad del producto de dos variables alea-
torias independientes ambas con distribución
a) unif(0, 1).
b) exp(λ).
446. Encuentre la función de densidad del producto de dos variables alea-
torias cuya función de densidad conjunta es
1
a) f (x, y) = , para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
Capı́tulo 5. Transformaciones 249
c) f (x, y) = e−y , para 0 < x < y.
d) fX,Y (x, y) = 8xy, para 0 < x < y < 1.
e) fX,Y (x, y) = 4x(1 − y), para 0 < x, y < 1.
447. Encuentre la función de densidad del producto de dos variables alea-
torias independientes cada una de ellas con función de densidad
a) f (x) = 2x, para 0 < x < 1.
b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.
448. Encuentre la función de densidad del producto de dos variables alea-
torias independientes X y Y , tales que
a) X ∼ unif(−1, 0) y Y ∼ unif(0, 1).
b) X ∼ unif(0, 1) y Y ∼ exp(λ).
Distribución del cociente
449. Encuentre la función de densidad de X/Y para (X, Y ) un vector con
función de densidad
1
a) f (x, y) = para 0 < x < a, 0 < y < b.
ab
b) f (x, y) = e−x−y , para x, y > 0.
c) f (x, y) = e−y , para 0 < x < y.
d) f (x, y) = 8xy, para 0 < x < y < 1.
e) f (x, y) = 4x(1 − y), para 0 < x, y < 1.
f ) f (x, y) = 2e−x−y , para 0 < x < y.
450. Encuentre la función de densidad de X/Y cuando X y Y son inde-
pendientes y ambas con distribución
a) exp(λ).
250 5.3. Ejercicios
b) unif(0, 1).
451. Encuentre la función de densidad de X/Y cuando X y Y son inde-
pendientes y ambas con función de densidad
a) f (x) = 2x, para 0 < x < 1.
b) f (x) = 6x(1 − x), para 0 < x < 1.
c) f (x) = (1 + x)/2, para −1 < x < 1.
452. Encuentre la función de densidad de X/Y cuando X y Y son inde-
pendientes y son tales que
a) X ∼ unif(−1, 1) y Y ∼ unif(0, 1).
b) X ∼ unif(0, 1) y Y ∼ exp(λ).
453. Sean X y Y independientes con distribución exp(λ). Encuentre la
función de densidad de X/(X + Y ).
Capı́tulo 6
Distribuciones muestrales
y estadı́sticas de orden
En este capı́tulo se estudian algunas distribuciones de probabilidad que
surgen en la estadı́stica y otras áreas de aplicación de la probabilidad. Se
estudian también algunas fórmulas para las distribuciones de las estadı́sticas
de orden de una muestra aleatoria.
Definición. (Muestra aleatoria). Una muestra aleatoria es una
colección de variables aleatorias X1 , . . . , Xn , que cumplen la condición
de ser independientes y de tener cada una de ellas la misma distribución.
Al número n se le llama tamaño de la muestra aleatoria.
A menudo se escribe m.a. para abreviar el término muestra aleatoria, y se
usan las siglas v.a.i.i.d. para denotar el término variables aleatorias indepen-
dientes e idénticamente distribuidas. Por lo tanto, una m.a. es una colección
de v.a.i.i.d.
Definición. (Estadı́stica). Una estadı́stica es una variable aleatoria
de la forma g(X1 , . . . , Xn ), en donde X1 , . . . , Xn es una muestra aleato-
ria, y g : Rn → R es una función Borel medible.
251
252
Ejemplo. (Media y varianza muestral). La media muestral es una estadı́stica
denotada por X̄ y definida como sigue
n
1X
X̄ = Xi .
n i=1
Observe que X̄ es una combinación lineal de los elementos de la m.a. y por lo tanto
es una variable aleatoria. Otro ejemplo importante de estadı́stica es la varianza
muestral, denotada por S 2 y definida como sigue
n
1 X
S2 = (Xi − X̄)2 .
n − 1 i=1
Observe que en el denominador aparece el número de sumandos menos uno, es
decir, ello no es un error. La media y la varianza muestrales tienen la caracterı́stica
de ser estimadores insesgados para la media y la varianza, respectivamente, de una
distribución cualquiera. ◦
En particular, cuando la muestra aleatoria proviene de una distribución nor-
mal, resulta que la media y la varianza muestrales son independientes. Este
es un resultado interesante e inesperado, y la demostración puede encon-
trarse en [20].
Proposición. Sea X1 , . . . , Xn una m.a. de la distribución N(µ, σ 2 ). En-
tonces las estadı́sticas X̄ y S 2 son independientes.
Utilizaremos este resultado más adelante. La proposición recién enunciada
no es válida para cualquier distribución de probabilidad, por ejemplo, no es
difı́cil verificar su no validez para una muestra aleatoria de la distribución
Bernoulli.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 253
6.1. Distribuciones muestrales
Se estudian a continuación algunas distribuciones que surgen en la estadı́sti-
ca al considerar funciones de una muestra aleatoria, en particular, la media
y la varianza muestral.
Distribución ji-cuadrada. La variable aleatoria continua X tiene una
distribución ji-cuadrada con n > 0 grados de libertad, si su función de
densidad es
n/2
1 1
xn/2−1 e−x/2 si x > 0,
f (x) = Γ(n/2) 2
0 si x ≤ 0.
En este caso se escribe X ∼ χ2 (n). El término χ2 se lee ji-cuadrada. La
gráfica de esta función de densidad se muestra en la Figura 6.1.
f (x)
1
2 n=1
n=2
n=3
n=4
Figura 6.1: Función de densidad χ2 (n).
Puede demostrarse que E(X) = n, y Var(X) = 2n. Observe que la distri-
bución χ2 (n) con n = 2 se reduce a la distribución exp(λ) con λ = 1/2.
La distribución ji-cuadrada puede encontrarse como indican los siguientes
resultados.
Proposición. Si X ∼ N(0, 1), entonces X 2 ∼ χ2 (1).
254 6.1. Distribuciones muestrales
Demostración. Para x > 0,
√ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √
2 x 2 x
√ 1
= fX ( x) √
x
1 −x/2 1
= √ e √
2π x
1/2
1 1
= x1/2−1 e−x/2 .
Γ(1/2) 2
Esta es la función de densidad de la distribución χ2 (1).
La suma de dos o mas variables aleatorias independientes con distribución ji-
cuadrada es nuevamente una variable aleatoria ji-cuadrada, y sus grados de
libertad son la suma de los grados de libertad de cada uno de los sumandos.
Este es el contenido de la siguiente proposición.
Proposición. Sean X1 , . . . , Xm independientes tales que cada Xi tiene
distribución χ2 (ni ), para i = 1, . . . , m. Entonces
m
X
Xi ∼ χ2 (n1 + · · · + nm ).
i=1
Demostración. Es suficiente demostrar el resultado para el caso de dos va-
riables aleatorias. Sean X y Y independientes con distribución ji-cuadrada
con grados de libertad n y m, respectivamente. Este ligero cambio en la
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 255
notación evitará el uso de subı́ndices. Por la fórmula (5.2), para u > 0,
Z u
fX+Y (u) = fX (u − v)fY (v) dv
0
Z u n/2
1 1
= (u − v)n/2−1 e−(u−v)/2
0 Γ(n/2)
2
m/2
1 1
v m/2−1 e−v/2 dv
Γ(m/2) 2
(n+m)/2
1 1
= e−u/2
Γ(n/2)Γ(m/2) 2
Z u
(u − v)n/2−1 v m/2−1 dv.
0
Haciendo el cambio de variable w(v) = v/u se obtiene
(n+m)/2
1 1
fX+Y (u) = e−u/2 u(n+m)/2−1
Γ(n/2)Γ(m/2) 2
Z 1
(1 − w)n/2−1 wm/2−1 dw.
0
La integral resultante es B(n/2, m/2). Entonces
(n+m)/2
B(n/2, m/2) 1
fX+Y (u) = e−u/2 u(n+m)/2−1
Γ(n/2)Γ(m/2) 2
(n+m)/2
1 1
= e−u/2 u(n+m)/2−1 .
Γ((n + m)/2) 2
Esta es la función de densidad de la distribución χ2 (n + m).
El resultado anterior puede demostrarse de una manera más simple y ele-
gante usando la función generadora de momentos o la función caracterı́stica,
presentadas en el siguiente capı́tulo.
256 6.1. Distribuciones muestrales
Proposición. Sean X1 , . . . , Xn independientes cada una con distribu-
ción N(µ, σ 2 ). Entonces
n
X (Xi − µ)2
∼ χ2 (n).
σ2
i=1
Demostración. Esto es una consecuencia sencilla de las dos proposiciones
anteriores. Como cada una de las variables Xi tiene distribución N(µ, σ 2 ),
para i = 1, . . . , n, entonces (Xi − µ)/σ tiene P
distribución N(0, 1). Por lo
tanto, (Xi − µ)2 /σ 2 ∼ χ2 (1). En consecuencia, ni=1 (Xi − µ)2 /σ 2 ∼ χ2 (n).
Ahora se enuncia un resultado cuya demostración se pospone hasta que se
cuente con la poderosa herramienta de las funciones generadoras de momen-
tos. Este es el contenido del ejercicio 553 en la página 329.
Proposición. Sean X y Y independientes tales que X tiene distribución
χ2 (n), y X + Y tiene distribución χ2 (m) con m > n. Entonces Y tiene
distribución χ2 (m − n).
Con ayuda de esta proposición se demuestra ahora el siguiente resultado de
particular importancia en estadı́stica.
Proposición. Sean X1 , . . . , Xn independientes con distribución
N(µ, σ 2 ). Entonces
n−1 2
S ∼ χ2 (n − 1).
σ2
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 257
Demostración.
n
X n
X
(Xi − µ)2 = [(Xi − X̄) + (X̄ − µ)]2
i=1 i=1
n
X
= (Xi − X̄)2 + n(X̄ − µ)2 .
i=1
Diviendo entre σ 2 ,
n
X 1 n−1 2 X̄ − µ
2
(Xi − µ)2 = 2
S + ( √ )2 .
σ σ σ/ n
i=1
El término del lado izquierdo tiene distribución χ2 (n), mientras que el se-
gundo sumando del lado derecho tiene distribución χ2 (1). Por la proposición
anterior, y recordando que X̄ y S 2 son independientes, se concluye que el
primer sumando del lado derecho tiene distribución χ2 (n − 1).
Distribución t. La variable aleatoria continua X tiene una distribución t
de Student con n > 0 grados de libertad si su función de densidad está dada
por
Γ((n + 1)/2)
f (x) = √ (1 + x2 /n)−(n+1)/2 , para − ∞ < x < ∞,
nπ Γ(n/2)
cuya gráfica se muestra en la Figura 6.2, cualitativamente es muy parecida
a la densidad normal estándar.
En este caso se escribe X ∼ t(n). Esta distribución apareció por primera
vez en 1908 en un trabajo publicado por William Gosset bajo el el seudóni-
mo de Student. Cuando el valor del parámetro n es igual a uno se obtie-
ne la distribución Cauchy. Se puede demostrar también que E(X) = 0, y
Var(X) = n/(n − 2), para n > 2. La primera igualdad establece que esta
distribución se encuentra siempre centrada en cero para cualquier valor del
parámetro n. Se muestran a continuación algunas formas en las que surge
esta distribución.
258 6.1. Distribuciones muestrales
f (x)
n = 100
n=3
n=1
Figura 6.2: Función de densidad t(n).
Proposición. Sean X ∼ N(0, 1) y Y ∼ χ2 (n) independientes. Entonces
X
p ∼ t(n).
Y /n
Demostración. Por independencia, la función de densidad conjunta de X y
Y es, para y > 0,
n/2
1 2 1 1
fX,Y (x, y) = √ e−x /2 · y n/2−1 e−y/2 .
2π Γ(n/2) 2
p
Se aplica la fórmula (5.1) para la transformación ϕ(x, y) = (x, x/ y/n), con
inversa ϕ−1 (s, t) = (s, ns2 /t2 ). El Jacobiano de la transformación inversa es
∂x/∂s ∂x/∂t 1 0
J(s, t) = = = −2ns2 /t3 .
∂y/∂s ∂y/∂t 2
2sn/t −2ns /t 2 3
Por lo tanto
fS,T (s, t) = fX (s)fY (ns2 /t2 ) · 2ns2 /t3
n/2 n/2−1 n−2
1 −s2 /2 1 1 n s 2 2
= √ e · n−2
e−ns /2t · 2ns2 /t3 .
2π Γ(n/2) 2 t
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 259
Integrando respecto a s,
Z ∞
1 nn/2 2 (1+n/t2 )/2
fT (t) = √ sn e−s ds.
2π 2n/2−1 Γ(n/2)tn+1 0
Ahora efectuamos el cambio de variable r(s) = s2 (1 + n/t2 )/2, de donde
obtenemos dr = s(1 + n/t2 )ds, y entonces
Z ∞
1 nn/2
fT (t) = √ r (n−1)/2 e−r dr
2π 2n/2−1 Γ(n/2)tn+1 2 1 + n2 (n+1)/2 0
2 2t
Γ((n + 1)/2) 1
= √ ,
nπ Γ(n/2) (1 + t2 /n)(n+1)/2
correspondiente a la función de densidad de la distribución t(n).
El siguiente resultado es usado para efectuar estimaciones de la media de
una población normal cuando la varianza es desconocida.
Proposición. Sea X1 , . . . , Xn una m.a. de una distribución N(µ, σ 2 ).
Entonces
X̄ − µ
√ ∼ t(n − 1).
S/ n
Demostración. Simplemente se aplica la proposición recién demostrada a
las variables aleatorias independientes
X̄ − µ n−1 2
√ ∼ N (0, 1) y S ∼ χ2 (n − 1).
σ/ n σ2
Distribución F. La variable aleatoria continua X tiene una distribución
F de Snedecor con parámetros n > 0 y m > 0 si su función de densidad es
260 6.1. Distribuciones muestrales
n/2
Γ((n + m)/2) n n −(n+m)/2
xn/2−1 1 + x
si x > 0,
f (x) = Γ(n/2) Γ(m/2) m m
0 si x ≤ 0.
Se escribe X ∼ F(n, m). En la Figura 6.3 se muestra el comportamiento de
esta función de densidad.
f (x)
3/4 n=4
m = 100
n=1
m=5
x
Figura 6.3: Función de densidad F (n, m).
Puede demostrarse que
m
E(X) = , para m > 2,
m−2
2m2 (m + n − 2)
y Var(X) = , para m > 4.
n(m − 2)2 (m − 4)
Los siguientes dos resultados indican la forma de obtener esta distribución.
Proposición. Sean X ∼ χ2 (n) y Y ∼ χ2 (m) independientes. Entonces
X/n
∼ F(n, m).
Y /m
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 261
Demostración. Esta afirmación se obtiene directamente de la aplicación de
la fórmula para la función de densidad del cociente de dos variables aleato-
rias. Recuerde que para n > 0, fX/n (x) = nfX (nx).
Proposición. Si X ∼ t(n), entonces X 2 ∼ F(1, n).
Demostración. El resultado se sigue fácilmente de la aplicación de la si-
guiente fórmula general. Para x > 0, y por la simetrı́a de la distribución t,
√ 1 √ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √ = fX ( x) √ .
2 x 2 x x
6.2. Estadı́sticas de orden
Dada una muestra aleatoria X1 , . . . , Xn , podemos evaluar cada una de estas
variables en un punto muestral ω cualquiera y obtener una colección de
números reales X1 (ω), . . . , Xn (ω). Estos números pueden ser ordenados de
menor a mayor incluyendo repeticiones. Si X(i) (ω) denota el i-ésimo número
ordenado, tenemos entonces la colección no decreciente de números reales
X(1) (ω) ≤ · · · ≤ X(n) (ω).
Ahora hacemos variar el argumento ω y lo que se obtiene son las ası́ lla-
madas estadı́sticas de orden. Este proceso de ordenamiento resulta ser de
importancia en algunas aplicaciones. Tenemos entonces la siguiente defini-
ción.
262 6.2. Estadı́sticas de orden
Definición. (Estadı́sticas de orden). Sea X1 , . . . , Xn una muestra
aleatoria. A las variables aleatorias ordenadas
X(1) = mı́n {X1 , . . . , Xn },
X(2) = mı́n {X1 , . . . , Xn } \ {X(1) },
X(3) = mı́n {X1 , . . . , Xn } \ {X(1) , X(2) },
..
.
X(n) = máx {X1 , . . . , Xn },
se les conoce con el nombre de estadı́sticas de orden. A X(1) se le llama
primera estadı́stica de orden, a X(2) se le llama segunda estadı́stica de
orden, etc. A X(i) se le llama i-ésima estadı́stica de orden, i = 1, . . . , n.
Observe que, aunque los elementos de la muestra aleatoria son variables
aleatorias independientes, las estadı́sticas de orden no lo son, pues deben
mantener la relación X(1) ≤ X(2) ≤ · · · ≤ X(n) . Observe además que la i-
ésima estadı́stica de orden X(i) no necesariamente es igual a alguna variable
de la muestra aleatoria en particular, sino que, en general, es una función
de todas las variables de la muestra aleatoria.
Nuestro objetivo es encontrar algunas fórmulas relacionadas con las distri-
buciones de probabilidad de las estadı́sticas de orden, cuando se conoce la
distribución de las variables de la muestra aleatoria, que por simplicidad se
supondrá absolutamente continua. En lo que resta del capı́tulo supondremos
entonces que X1 , . . . , Xn es una muestra aleatoria en donde cada variable
tiene función de densidad f (x) y función de distribución F (x).
Distribuciones individuales
Comenzamos encontrando la distribución de la primera y de la última es-
tadı́stica de orden de manera individual.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 263
Proposición. Para n ≥ 1,
1. fX(1) (x) = nf (x) [1 − F (x)]n−1 .
2. fX(n) (x) = nf (x) [F (x)]n−1 .
Demostración.
1. Se calcula primero la función de distribución.
FX(1) (x) = P (X(1) ≤ x)
= P (mı́n{X1 , . . . , Xn } ≤ x)
= 1 − P (mı́n{X1 , . . . , Xn } > x)
= 1 − P (X1 > x, . . . , Xn > x)
= 1 − [P (X1 > x)]n
= 1 − [1 − F (x)]n .
Entonces fX(1) (x) = nf (x) [1 − F (x)]n−1 .
2. Se procede de manera análoga.
FX(n) (x) = P (X(n) ≤ x)
= P (máx{X1 , . . . , Xn } ≤ x)
= P (X1 ≤ x, . . . , Xn ≤ x)
= [P (X1 ≤ x)]n
= [F (x)]n .
Por lo tanto fX(n) (x) = nf (x) [F (x)]n−1 .
Ejercicio. Compruebe que las expresiones encontradas para fX(1) y fX(n) son
efectivamente funciones de densidad. Encuentre en particular expresiones para es-
tas funciones de densidad cuando las variables de la muestra tienen distribución
264 6.2. Estadı́sticas de orden
unif(0, 1). ◦
Ahora se presenta el resultado general acerca de la función de densidad de
la i-ésima estadı́stica de orden.
Proposición. La función de densidad de la i-ésima estadı́stica de orden
es
n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
Demostración. Para cada i defina la variable aleatoria
1 si Xi ≤ x,
Yi = 1(−∞,x] (Xi ) =
0 si Xi > x,
en donde Xi es el i-ésimo elemento de la muestra aleatoria. Las variables
Y1 , . . . , Yn son independientes y cada una de ellas puede considerarse un
ensayo Bernoulli con probabilidad de éxito, es decir tomar el valor 1, igual
a P (Xi ≤ x) = F (x). Entonces la suma Y1 + · · · + Yn corresponde al número
de variables aleatorias Xi que cumplen la condición Xi ≤ x, y por lo tanto
esta suma tiene distribución bin(n, p), con p = F (x). Entonces
FX(i) (x) = P (X(i) ≤ x)
= P (Y1 + · · · + Yn ≥ i)
n
X n
= [F (x)]j [1 − F (x)]n−j .
j
j=i
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 265
Derivando y después simplificando,
n
X n
fX(i) (x) = f (x)[F (x)]j−1 [1 − F (x)]n−j−1
j
j=i
[j(1 − F (x)) − (n − j)F (x)]
n
X n
= jf (x)[F (x)]j−1 [1 − F (x)]n−j
j
j=i
n
X n
− (n − j)f (x)[F (x)]j [1 − F (x)]n−j−1
j
j=i
n
= i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
Ejercicio. Demuestre que la expresión encontrada para fX(i) (x) es efectivamente
una función de densidad. Verifique que esta densidad se reduce a las encontradas
antes cuando el ı́ndice i toma los valores 1 o n. En particular, encuentre la función
de densidad de la i-ésima estadı́stica de orden suponiendo que las variables de la
muestra tienen distribución unif(0, 1). ◦
A continuación se presenta un argumento corto e intuitivo que nos lleva
al mismo resultado. Sea h > 0 arbitrario, y considere los siguientes tres
intervalos ajenos (−∞, x], (x, x + h] y (x + h, ∞).
i−1 1 n−i
x x+h
La probabilidad de que i − 1 variables de la muestra tomen un valor en el
intervalo (−∞, x], una de ellas en (x, x + h], y el resto n − i en (x + h, ∞)
es, de acuerdo a la distribución multinomial,
n!
[F (x)]i−1 [F (x + h) − F (x)][1 − F (x + h)]n−i .
(i − 1)! 1! (n − i)!
266 6.2. Estadı́sticas de orden
Esta probabilidad es aproximadamente igual a fX(i) (x)h. Dividiendo entre
h, y después haciendo h tender a cero se obtiene nuevamente
n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
Sea X1 , . . . , Xn una muestra aleatoria. A la variable aleatoria R = X(n) −
X(1) se le conoce como el rango de la muestra. El siguiente resultado provee
de una fórmula para la función de densidad de esta variable.
Proposición. Para r > 0,
Z ∞
fR (r) = n(n − 1) f (v)f (r + v)[F (r + v) − F (v)]n−2 dv.
−∞
Demostración. Para x < y,
FX(1) ,X(n) (x, y) = P (X(1) ≤ x, X(n) ≤ y)
= P (X(n) ≤ y) − P (X(n) ≤ y, X(1) > x)
= [F (y)]n − P (x < X1 ≤ y, . . . , x < Xn ≤ y)
= [F (y)]n − [F (y) − F (x)]n .
Por lo tanto, fX(1) ,X(n) (x, y) = n(n − 1)f (x)f (y)[F (y) − F (x)]n−2 , para
n ≥ 2. Ahora se usa la fórmula
Z ∞
fY −X (u) = fX,Y (v, u + v) dv
−∞
equivalente a (5.5) para la diferencia de dos variables aleatorias. Entonces
para r > 0,
Z ∞
fX(n) −X(1) (r) = n(n − 1) f (v)f (r + v)[F (r + v) − F (v)]n−2 dv.
−∞
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 267
Ejercicio. Se escogen n puntos al azar con distribución uniforme en el intervalo
unitario (0, 1). Demuestre que la función de densidad de la distancia máxima entre
cualesquiera dos puntos es
n(n − 1)rn−2 (1 − r) si 0 < r < 1,
f (r) =
0 otro caso.
◦
Distribuciones conjuntas
Se presentan a continuación dos resultados acerca de la distribución con-
junta de las estadı́sticas de orden. El primer resultado trata acerca de la
distribución conjunta de todas ellas, después se considera la distribución
conjunta de cualesquiera dos.
Proposición. Para x1 < · · · < xn ,
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).
Demostración. Se considera la función de distribución conjunta de todas las
estadı́sticas de orden, y después se deriva n veces para encontrar la función
de densidad. Para x1 < x2 < · · · < xn ,
FX(1) ,...,X(n) (x1 , . . . , xn ) = P (X(1) ≤ x1 , X(2) ≤ x2 , . . . , X(n) ≤ xn ).
Como (X(2) ≤ x2 ) = (x1 < X(2) ≤ x2 ) ∪ (X(2) ≤ x1 ), se obtiene la expresión
FX(1) ,...,X(n) (x1 , . . . , xn )
= P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , X(n) ≤ xn )
+ P X(1) ≤ x1 , X(2) ≤ x1 , . . . , X(n) ≤ xn ).
268 6.2. Estadı́sticas de orden
Observe que el segundo sumando no depende de x2 , asi es que al tomar
la derivada respecto de esta variable, este término desaparece. De manera
análoga procedemos con los eventos (X(3) ≤ x3 ) hasta (X(n) ≤ xn ). Al final
se obtiene
fX(1) ,...,X(n) (x1 , . . . , xn )
∂n
= P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < X(n) ≤ xn ).
∂x1 · · · ∂xn
Como ahora los intervalos involucrados son disjuntos, la distribución multi-
nomial asegura que
P (X(1) ≤ x1 , x1 < X(2) ≤ x2 , . . . , xn−1 < X(n) ≤ xn )
= n! P (X1 ≤ x1 , x1 < X2 ≤ x2 , . . . , xn−1 < Xn ≤ xn )
= n! F (x1 )[F (x2 ) − F (x1 )] · · · [F (xn ) − F (xn−1 )],
en donde la última igualdad se sigue de la independencia e idéntica distribu-
ción de las variables de la muestra. Ahora solo resta derivar para encontrar
el resultado buscado, siendo más sencillo encontrar las derivadas en el orden
inverso.
Ejercicio. Demuestre que la expresión encontrada para la función de densidad
conjunta de las estadı́sticas de orden es efectivamente una función de densidad
multivariada. Encuentre además esta función cuando las variables de la muestra
tienen distribución unif(0, 1). ◦
La siguiente demostración es una prueba corta pero no formal del mismo
resultado. Sea x1 < x2 < · · · < xn , y h > 0 suficientemente pequeña tal que
los intervalos (x1 , x1 + h], (x2 , x2 + h], . . . , (xn , xn + h] son ajenos.
x1 x2 ······ xn
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 269
La probabilidad de que las variables aleatorias tomen valores, cada una de
ellas, en uno y sólo uno de estos intervalos es, de acuerdo a la distribución
multinomial,
n!
[F (x1 + h) − F (x1 )] · · · [F (xn + h) − F (xn )].
1! · · · 1!
Esta probabilidad es aproximadamente igual a fX(1) ,...,X(n) (x1 , . . . , xn )hn .
Dividiendo entre hn , y después haciendo h tender a cero se obtiene, una vez
mas,
fX(1) ,...,X(n) (x1 , . . . , xn ) = n!f (x1 ) · · · f (xn ).
Ahora nos interesa encontrar una fórmula para la densidad conjunta de
cualesquiera dos estadı́sticas de orden.
Proposición. Suponga i < j. Para x < y,
n
fX(i) ,X(j) (x, y) = i(j − i) f (x)f (y)
i, j − i, n − j
[F (x)]i−1 [F (y) − F (x)]j−i−1 [1 − F (y)]n−j .
Para este resultado se presenta únicamente el argumento intuitivo usado
antes. Sean x < y y considere los intervalos ajenos (−∞, x], (x, x + h],
(x + h, y], (y, y + h], y (y + h, ∞) para h > 0 suficientemente pequeña.
i−1 1 j−i−1 1 n−j
x x+h y y+h
La probabilidad de que i − 1 variables de la muestra tomen un valor en
(−∞, x], una de ellas en (x, x + h], j − i + 1 variables en (x + h, y], otra en
270 6.2. Estadı́sticas de orden
(y, y + h], y el resto, n − j variables, tomen un valor en (y + h, ∞) es, de
acuerdo a la distribución multinomial,
n!
[F (x)]i−1 · [F (x + h) − F (x)]
(i − 1)! 1! (j − i − 1)! 1! (n − j)!
[F (y) − F (x + h)]j−i−1 · [F (y + h) − F (y)] · [1 − F (y + h)]n−j .
Esta probabilidad es aproximadamente igual a fX(i) ,X(j) (x, y) · h · h. Divi-
diendo entre h2 , y después haciendo h tender a cero se obtiene la fórmula
anunciada.
Ejercicio. Demuestre que la expresión encontrada para la función de densidad
conjunta de las estadı́sticas de orden X(i) y X(j) es efectivamente una función
de densidad bivariada. Encuentre además esta función cuando las variables de la
muestra tienen distribución unif(0, 1). ◦
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 271
6.3. Ejercicios
Media y varianza muestral
454. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con media
µ y varianza σ 2 . Demuestre que E(X̄) = µ y E(S 2 ) = σ 2 . Estos
resultados son de utilidad en estadı́stica y muestran que X̄ y S 2 son
estimadores insesgados para la media y varianza de la distribución.
455. Sea X1 , . . . , Xn una m.a. de una distribución con media µ y varianza
σ 2 . Demuestre que Var(X̄) = σ 2 /n. ¿Cuánto vale Var(S 2 )?
456. Sea X1 , . . . , Xn una m.a. de una distribución Ber(p). Demuestre que
las estadı́sticas X̄ y S 2 no son independientes.
Distribución χ2
457. Demuestre que la función de densidad de la distribución χ2 (n) efec-
tivamente lo es. En particular, compruebe que la distribución χ2 (n),
con n = 2, se reduce a la distribución exp(λ) con λ = 1/2.
458. Demuestre que la distribución gama(n/2, λ), con λ = 1/2, se reduce a
la distribución χ2 (n).
459. Sea X con distribución χ2 (n). Demuestre que
a) E(X) = n.
b) E(X m ) = 2m Γ(m + n/2)/Γ(n/2), para m = 1, 2, . . .
c) Var(X) = 2n.
460. Sean X1 , . . . , Xn independientes cada una con distribución N(µ, σ 2 ).
Demuestre que
(X̄ − µ)2
∼ χ2 (1).
σ 2 /n
272 6.3. Ejercicios
461. Sean X1 , . . . , Xn independientes cada una con distribución normal
estándar. Demuestre que
n
X
Xi2 ∼ χ2 (n).
i=1
462. Sean X1 , . . . , Xn independientes tales que cada variable Xi tiene dis-
tribución N(µi , σi2 ) para i = 1, . . . , n. Demuestre que
n
X (Xi − µi )2
∼ χ2 (n).
i=1
σi2
463. Sean X y Y
√ independientes ambas con distribución normal estándar.
Sean R = X 2 + Y 2 y θ = tan−1 (Y /X). Demuestre que
a) R2 tiene distribución χ2 (n) con n = 2 grados de libertad.
b) tan θ tiene distribución Cauchy.
c) R y θ son independientes.
Distribución t
464. Demuestre que la función de densidad de una variable aleatoria X
con distribución t(n) efectivamente lo es. Demuestre además que esta
función tiene un máximo en x = 0 y que
a) E(X) = 0.
b) Var(X) = n/(n − 2), para n > 2.
Compruebe además que esta distribución se reduce a la distribución
Cauchy cuando el valor del parámetro n es uno.
465. Demuestre que la distribución t(n+1) tiene momentos finitos de orden
menor o igual a n, pero ningún otro momento de orden superior.
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 273
Distribución F
466. Demuestre que la función de densidad de una variable aleatoria X con
distribución F(n, m) efectivamente lo es. Demuestre además que
a) E(X) = m/(m − 2), para m > 2.
2m2 (m+ n − 2)
b) Var(X) = , para m > 4 .
n(m − 2)2 (m − 4)
467. Sea X con distribución F(n, m). Demuestre que Y = 1/X tiene distri-
bución F(m, n), observe el cambio en el orden de los parámetros. Este
resultado es útil para obtener valores de F que no aparecen en tablas
de esta distribución que son comunes en textos de estadı́stica.
468. Sea X con distribución F(n, m). Demuestre que cuando m tiende a
infinito la función de densidad de nX converge a la función de densidad
de la distribución χ2 (n).
Estadı́sticas de orden: distribuciones individuales
469. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Demuestre
que la i-ésima estadı́stica de orden tiene distribución beta(i, n + 1 − i).
Encuentre por lo tanto su esperanza y varianza.
470. Sea X1 , . . . , Xn una m.a. de una distribución exp(λ). Encuentre la
función de densidad de la i-ésima estadı́stica de orden.
471. Sean X(1) , X(2) las estadı́sticas de orden de una m.a. de tamaño dos
√
de una distribución N(µ, σ 2 ). Demuestre que E[X(1) ] = µ − σ/ π y
calcule E[X(2) ].
472. Sea X1 , . . . , Xn una m.a. de una distribución F (x). Sea x un número
real cualquiera, y para cada i = 1, . . . , n defina Yi = 1(−∞,x] (Xi ).
Demuestre que las variables Y1 , . . . , Yn son independientes, y cada una
de ellas tiene distribución Ber(n, p), con p = F (x). Este hecho fue
274 6.3. Ejercicios
utilizado en el procedimiento para encontrar la función de densidad
de la i-ésima estadı́stica de orden.
473. Sean X1 y X2 absolutamente continuas e independientes, y defina
Y = máx{X1 , X2 }. Demuestre que
a) FY (y) = FX1 (y)FX2 (y).
b) fY (y) = FX1 (y)fX2 (y) + fX1 (y)FX2 (y).
c) fY (y) = 2F (y)f (y), cuando X1 y X2 tienen la misma distribu-
ción.
474. Use el ejercicio anterior para encontrar la función de densidad de
Y = máx{X1 , X2 } cuando X1 y X2 son independientes cada una con
distribución
a) unif(0, 1).
b) exp(λ).
475. Sean X1 y X2 absolutamente continuas e independientes. Defina Y =
mı́n{X1 , X2 }. Demuestre que
a) FY (y) = 1 − [1 − FX1 (y)][1 − FX2 (y)].
b) fY (y) = [1 − FX1 (y)]fX2 (y) + fX1 (y)[1 − FX2 (y)].
c) fY (y) = 2[1 − F (y)]f (y), cuando X1 y X2 tienen la misma dis-
tribución.
476. Use el ejercicio anterior para encontrar la función de densidad del
mı́nimo de dos variables aleatorias independientes cada una con dis-
tribución uniforme en el intervalo (0, 1).
477. Sean X1 , . . . , Xn variables aleatorias independientes en donde Xk tiene
distribución exp(λk ), para k = 1, . . . , n. Demuestre que la variable
mı́n{X1 , . . . , Xn } tiene distribución exp(λ1 + · · · + λn ), y que P (Xk =
mı́n{X1 , . . . , Xn }) = λk /(λ1 + · · · + λn ).
Capı́tulo 6. Dist. muestrales y estadı́sticas de orden 275
Estadı́sticas de orden: distribuciones conjuntas
478. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función
de densidad marginal de X(1) , encontrando nuevamente que
fX(1) (x) = nf (x)[1 − F (x)]n−1 .
479. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función
de densidad marginal de X(n) , encontrando nuevamente que
fX(n) (x) = nf (x)[F (x)]n−1 .
480. A partir de la fórmula para fX(1) ,...,X(n) (x1 , . . . , xn ), calcule la función
de densidad marginal de X(i) , para i = 1, . . . , n, encontrando nueva-
mente que
n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
481. A partir de la fórmula para fX(i) ,X(j) (x, y), calcule la función de den-
sidad marginal de X(i) , encontrando nuevamente que
n
fX(i) (x) = i f (x)[F (x)]i−1 [1 − F (x)]n−i .
i
482. Sea X1 , . . . , Xn una m.a. de una distribución unif(−1, 1). Encuentre
la función de densidad de
a) X(1) y X(2) conjuntamente.
b) R = X(n) − X(1) .
483. Mediana muestral. La mediana de una muestra aleatoria X1 , . . . , Xn ,
denotada por Med(X1 , . . . , Xn ), se define del siguiente modo. Consi-
dere las estadı́sticas de orden X(1) ≤ X(2) ≤ · · · ≤ X(n) , entonces
X( n+1
2
) si n es impar,
Med(X1 , . . . , Xn ) = 1
[ X( n ) + X( n +1) ] si n es par.
2 2 2
276 6.3. Ejercicios
Encuentre la función de densidad de la mediana de una muestra alea-
toria de la distribución unif(0, 1), primero suponiendo que el tamaño
de la muestra n es impar, y después para n par.
484. Sea X1 , . . . , Xn una m.a. de una distribución unif(0, 1). Calcule el
coeficiente de correlación entre X(i) y X(j) .
485. Sea X1 , . . . , Xn una m.a. de una distribución continua F (x) con fun-
ción de densidad f (x). Demuestre directamente que para x < y,
fX(1) ,X(n) (x, y) = n(n − 1)f (x)f (y)[F (y) − F (x)]n−2 .
486. Encuentre la función de densidad conjunta de X(1) y X(n) para una
m.a. de tamaño n de una distribución
a) unif(0, 1).
b) exp(λ).
487. Calcule la covarianza entre X(1) y X(n) para una m.a. de tamaño n de
una distribución
a) unif(0, 1).
b) exp(λ).
Capı́tulo 7
Convergencia
En este capı́tulo se presenta una introducción al tema de convergencia de
variables aleatorias. Se estudian distintas formas en que una sucesión de
variables aleatorias puede converger.
7.1. Tipos de convergencia
Convergencia puntual
Sea X1 , X2 , . . . una sucesión infinita de variables aleatorias. Al evaluar cada
una de estas variables en un elemento ω se obtiene la sucesión numérica
X1 (ω), X2 (ω), . . . Suponga que esta sucesión converge a un cierto número
real denotado por X(ω). Si lo anterior se cumple para todos y cada uno
de los elementos de Ω, entonces se dice que la sucesión de variables aleato-
rias converge puntualmente, y su lı́mite es la función X : Ω → R definida
naturalmente por
X(ω) = lı́m Xn (ω).
n→∞
Se ha demostrado antes que en esta situación la función lı́mite X es efecti-
vamente una variable aleatoria. Formalmente se tiene entonces la siguiente
277
278 7.1. Tipos de convergencia
definición.
Definición. (Convergencia puntual). La sucesión de variables alea-
torias X1 , X2 , . . . converge puntualmente a X si para cada ω en Ω,
lı́m Xn (ω) = X(ω).
n→∞
Ejemplo. Considere el espacio medible ([0, 1], B[0, 1]), y defina la sucesión de
variables aleatorias Xn (ω) = ω n . Como en este caso el espacio muestral es un
subconjunto de números reales, podemos graficar las variables aleatorias como en
la Figura 7.1.
Xn (ω)
1 b
b bc
ω
1
Figura 7.1: Gráfica de la variable aleatoria Xn (ω) = ω n .
Entonces para cada ω ∈ [0, 1), la sucesión numérica Xn (ω) converge a 0, mientras
que para ω = 1, y para cualquier valor de n, Xn (ω) = 1. De esta manera la sucesión
converge puntualmente a la variable aleatoria
0 si ω ∈ [0, 1),
X(ω) =
1 si ω = 1.
◦
Una sucesión de variables aleatorias es entonces una sucesión de funciones,
pero a diferencia de la situación que se estudia en los cursos de análisis
matemático, el dominio de definición de estas funciones, es decir, el espacio
muestral en este caso, no tiene una estructura algebraica excepto la dada
Capı́tulo 7. Convergencia 279
por la σ-álgebra y la medida de probabilidad. La forma en la que se utili-
za esta medida de probabilidad es la que determina los distintos tipos de
convergencia.
En algunas situaciones la convergencia puntual resulta ser una condición
muy fuerte pues se pide la convergencia de la sucesión evaluada en todos y
cada uno de los elementos del espacio muestral. Se puede ser menos estricto
y pedir, por ejemplo, que la convergencia se verifique en todo el espacio Ω
excepto en un subconjunto de probabilidad cero. Este tipo de convergen-
cia menos restrictiva se llama convergencia casi segura, y se estudia en las
siguientes secciones junto con otros tipos de convergencia.
Convergencia casi segura
Definición. (Convergencia casi segura). La sucesión de variables
aleatorias X1 , X2 , . . . converge casi seguramente a X, si
P {ω ∈ Ω : lı́m Xn (ω) = X(ω)} = 1.
n→∞
Es decir, en la convergencia casi segura se permite que para algunos va-
lores de ω, la sucesión numérica X1 (ω), X2 (ω), . . . pueda no converger, sin
embargo el subconjunto de Ω en donde esto suceda debe tener probabili-
c.s.
dad cero. Para indicar la convergencia casi segura se escribe Xn −→ X,
o bien lı́m Xn = X c.s. A menudo se utiliza el término convergencia ca-
n→∞
si dondequiera, o bien convergencia casi siempre para denotar este tipo de
convergencia. Observe que omitiendo el argumento ω, la condición para la
convergencia casi segura se escribe en la forma más corta:
P ( lı́m Xn = X ) = 1,
n→∞
o simplemente P (Xn → X) = 1. Observe también que el conjunto (Xn →
X) debe ser medible para que tenga sentido aplicar la probabilidad. Puede
280 7.1. Tipos de convergencia
demostrarse que bajo este tipo de convergencia, el lı́mite es único casi se-
guramente, es decir, si Xn converge a X c.s. y también converge a Y c.s.,
entonces X = Y casi seguramente.
Ejemplo. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) con P la medida
uniforme, es decir, la medida de probabilidad de un intervalo es su longitud. Defina
la sucesión de variables aleatorias
(
1 si 0 ≤ ω ≤ 1/n,
Xn (ω) =
0 otro caso.
Cuyas gráficas se muestran en la Figura 7.2.
Xn (ω)
1 b b
bc b
ω
1/n 1
Figura 7.2: Gráfica de la variable aleatoria Xn (ω) = 1[0,1/n] (ω).
La variable Xn tiene distribución Bernoulli con parámetro p = 1/n. La sucesión Xn
converge casi seguramente a la variable aleatoria constante cero. Para demostrar
esto se necesita verificar que P (Xn → 0) = 1. Pero esta igualdad es evidente a
partir del hecho de que el conjunto
{ω ∈ Ω : lı́m Xn (ω) = 0} = (0, 1],
n→∞
tiene probabilidad uno. El punto ω = 0 es el único punto muestral para el cual
c.s.
Xn (ω) no converge a cero. Esto demuestra que Xn −→ 0. ◦
Capı́tulo 7. Convergencia 281
Convergencia en probabilidad
Definición. (Convergencia en probabilidad). La sucesión de va-
riables aleatorias X1 , X2 , . . . converge en probabilidad a X, si para cada
ǫ > 0,
lı́m P {ω ∈ Ω : |Xn (ω) − X(ω)| > ǫ} = 0.
n→∞
p
Para denotar la convergencia en probabilidad se escribe Xn −→ X, y omi-
tiendo el argumento ω la condición se escribe
lı́m P ( |Xn − X| > ǫ ) = 0.
n→∞
Nuevamente puede comprobarse que el lı́mite es único casi seguramente.
Más adelante se demostrará que la convergencia en probabilidad es un tipo
de convergencia aún menos restrictiva que la convergencia casi segura.
Convergencia en media
Definición. (Convergencia en media). La sucesión de variables
aleatorias X1 , X2 , . . . converge en media a X, si
lı́m E|Xn − X| = 0.
n→∞
A este tipo de convergencia también se le llama convergencia en L1 y se le
m L1
denota por Xn −→ X, o Xn −→ X.
282 7.1. Tipos de convergencia
Convergencia en media cuadrática
Definición. (Convergencia en media cuadrática). La sucesión
de variables aleatorias X1 , X2 , . . . converge en media cuadrática a X, si
lı́m E|Xn − X|2 = 0.
n→∞
En la convergencia en media cuadrática se presupone que tanto los elemen-
tos de la sucesión como el lı́mite mismo son variables aleatorias con segundo
momento finito. A este tipo de convergencia también se le llama convergen-
m.c. L2
cia en L2 , y se le denota por Xn −→ X, o Xn −→ X.
Convergencia en distribución
Definición. (Convergencia en distribución). La sucesión de va-
riables aleatorias X1 , X2 , . . . converge en distribución a X, si para todo
punto x en donde la función FX (x) es continua, se cumple que
lı́m FXn (x) = FX (x).
n→∞
d d
En este caso se escribe Xn → X, o bien FXn → FX . A este tipo de conver-
gencia se le conoce también con el nombre de convergencia débil, y ello se
debe a que esta forma de convergencia es la menos restrictiva de todas las
mencionadas anteriormente.
Ejemplo. Considere la sucesión X1 , X2 , . . ., en donde cada Xn tiene distribución
Capı́tulo 7. Convergencia 283
d
N(0, σ 2 /n). Demostraremos que Xn → 0. Como
Z x
1 2 2
FXn (x) = p e−u /2(σ /n) du,
2
2πσ /n −∞
se cumple que
0 si x < 0,
lı́m FXn (x) = 1/2 si x = 0,
n→∞
1 si x > 0.
Gráficamente la distribución lı́mite se muestra en la Figura 7.3.
FXn (x)
1
bc
bc
x
Figura 7.3: Sucesión y lı́mite de las funciones de distribución FXn (x).
Observe que la variable aleatoria constante X = 0 tiene función de distribución
0 si x < 0,
FX (x) =
1 si x ≥ 0.
d
Tenemos entonces que Xn −→ 0, pues lı́m FXn (x) = FX (x) para todo punto x
n→∞
donde FX (x) es continua, esto es, para todo x en el conjunto R \ {0}. Observe que
las funciones FXn (x) no convergen a F (x) cuando x = 0. ◦
El siguiente resultado particular será usado más adelante para demostrar
la ley débil de los grandes números. El recı́proco es válido sin necesidad
de solicitar que el lı́mite sea constante, esto se demuestra en la siguiente
sección.
d p
Proposición. Sea c una constante. Si Xn −→ c, entonces Xn −→ c.
284 7.1. Tipos de convergencia
Demostración. La función de distribución de la variable aleatoria constante
c es
0 si x < c,
F (x) =
1 si x ≥ c,
que tiene un único punto de discontinuidad en x = c. Suponga entonces que
FXn (x) → F (x) para x 6= c. Para cualquier ǫ > 0 se tiene que
P (|Xn − c| ≥ ǫ) = P (Xn ≤ c − ǫ) + P (Xn ≥ c + ǫ)
≤ P (Xn ≤ c − ǫ) + P (Xn > c + ǫ/2)
= FXn (c − ǫ) + 1 − FXn (c + ǫ/2).
De modo que cuando n tiende a infinito,
P (|Xn − c| ≥ ǫ) → F (c − ǫ) + 1 − F (c + ǫ/2) = 0.
A manera de resumen y sin mayores precisiones, se presenta en la siguiente
tabla las definiciones de los distintos tipos de convergencia mencionados. En
la siguiente sección se estudian las relaciones entre estos tipos de convergen-
cia.
Convergencia Definición
puntual Xn (ω) → X(ω) para cada ω en Ω.
casi segura P (Xn → X) = 1.
en media E|Xn − X| → 0.
en media cuadrática E|Xn − X|2 → 0.
en probabilidad P (|Xn − X| > ǫ) → 0.
en distribución FXn (x) → FX (x) en puntos de
continuidad x de FX .
Capı́tulo 7. Convergencia 285
7.2. Relaciones entre los tipos de convergencia
En esta sección se establecen algunas relaciones generales entre los tipos de
convergencia de variables aleatorias mencionados en la sección anterior. En
la Figura 7.4 se ilustran de manera gráfica estas relaciones.
Conv. Conv.
casi en m. c.
segura
Conv. en m.
Conv. en probabilidad
Conv. en distribución
Figura 7.4: Relación entre los tipos de convergencia.
En este diagrama la contención se interpreta como implicación, por ejemplo,
la convergencia casi segura implica la convergencia en probabilidad, y ésta
a su vez implica la convergencia en distribución. Estos y otros resultados se
demuestran a continuación.
Proposición. Convergencia c.s. ⇒ convergencia en prob.
Demostración. Sea ǫ > 0. Para cada natural n defina los eventos
∞
[
An = (|Xk − X| > ǫ).
k=n
Esta sucesión es decreciente y su lı́mite es entonces la intersección de todos
286 7.2. Relaciones entre los tipos de convergencia
los eventos. Como (|Xn −X| > ǫ) ⊆ An , entonces P (|Xn −X| > ǫ) ≤ P (An ).
Por lo tanto,
lı́m P (|Xn − X| > ǫ) ≤ lı́m P (An )
n→∞ n→∞
= P ( lı́m An )
n→∞
\∞
= P( An )
n=1
= P (|Xn − X| > ǫ, para cada n ≥ 1 )
= P ( lı́m Xn 6= X )
n→∞
= 0.
El recı́proco de la proposición anterior es, en general, falso, es decir, la
convergencia en probabilidad no implica necesariamente la convergencia casi
siempre. Para comprobar esta afirmación se proporciona a continuación un
ejemplo.
Ejemplo. (En general, conv. en prob. =⇒ 6 conv. c.s.). Considere el espacio
de probabilidad ((0, 1), B(0, 1), P ), con P la medida uniforme. Defina los eventos
A1 = (0, 1/2), A2 = (1/2, 1),
A3 = (0, 1/3), A4 = (1/3, 2/3), A5 = (2/3, 1),
A6 = (0, 1/4), A7 = (1/4, 2/4), A8 = (2/4, 3/4), A9 = (3/4, 1),
······
Sea Xn = 1An . Las gráficas de estas primeras variables aleatorias se muestran en
la Figura 7.5.
p
Entonces Xn −→ 0 pues para cualquier ǫ > 0,
lı́m P (|Xn − 0| > ǫ) = lı́m P (An ) = 0.
n→∞ n→∞
Sin embargo la sucesión no converge casi seguramente pues
{w ∈ Ω : lı́m Xn (w) existe } = ∅.
n→∞
Capı́tulo 7. Convergencia 287
X1 X2
1 bc bc
1 bc bc
b bc bc b
1 1
X3 X4 X5
1 bc bc
1 bc bc
1 bc bc
b bc bc b b bc bc b
1 1 1
Figura 7.5: Gráficas de las primeras variables aleatorias Xn = 1An .
Ejemplo. (En general, conv. en media =⇒
6 convergencia c.s.). Considere
m
la sucesión de variables Xn del ejemplo anterior. Entonces Xn −→ 0 pues E|Xn −
0| = P (An ) → 0. Sin embargo esta sucesión no converge c.s. pues P ( lı́m Xn =
n→∞
0) = P (∅) = 0. ◦
El ejemplo anterior sirve también para mostrar que, en general, la conver-
gencia en media cuadrática no implica la convergencia casi segura.
Ejemplo (En general, conv. c.s. =⇒ 6 conv. en media). Considere el es-
pacio ((0, 1), B(0, 1), P ), con P la medida de probabilidad uniforme. Defina la
sucesión Xn = n · 1(0,1/n) . Entonces Xn converge a cero casi seguramente pues
P (lı́m Xn = 0) = P (Ω) = 1. Sin embargo no hay convergencia en media pues
E|Xn − 0| = E(Xn ) = 1 −→ 6 0. ◦
Este ejemplo puede ser usado también para demostrar que la convergencia
casi segura no implica necesariamente la convergencia en media cuadrática.
288 7.2. Relaciones entre los tipos de convergencia
Proposición. Convergencia en m.c. ⇒ convergencia en media.
Demostración. La desigualdad de Jensen establece que para u convexa,
u(E(X)) ≤ E(u(X)).
Tomando u(x) = x2 se obtiene E 2 |Xn − X| ≤ E|Xn − X|2 , de donde se
sigue el resultado. Alternativamente la última desigualdad es consecuencia
de la desigualdad de Cauchy-Schwarz.
Ejemplo. (En general, conv. en media =⇒
6 conv. en m.c.) Sea Xn =
n·1(0,1/n2 ) sobre el espacio ((0, 1), B(0, 1), P ), con P la medida uniforme. Entonces
Xn converge a cero en media pues
E|Xn − 0| = E(Xn ) = n · 1/n2 → 0.
Sin embargo, no hay convergencia en media cuadrática pues
E|Xn − 0|2 = E(Xn2 ) = n2 · 1/n2 = 1 −→
6 0.
Proposición. Convergencia en media ⇒ convergencia en prob.
Demostración. Para cada ǫ > 0 defina el evento An = (|Xn − X| > ǫ).
Entonces
E|Xn − X| = E(|Xn − X| · 1An ) + E(|Xn − X| · 1Acn )
≥ E(|Xn − X| · 1An )
≥ ǫP (|Xn − X| > ǫ).
Por hipótesis, el lado izquierdo tiende a cero cuando n tiende a infinito. Por
lo tanto P (|Xn − X| > ǫ) → 0.
Capı́tulo 7. Convergencia 289
El recı́proco del resultado anterior es, en general, falso.
Ejemplo. (En general, conv. en prob. =⇒
6 conv. en media). Considere
nuevamente el espacio ((0, 1), B(0, 1), P ), con P la medida uniforme, y defina las
variables Xn = n · 1(0,1/n) . Entonces Xn converge en probabilidad a cero pues para
cualquier ǫ > 0, P (|Xn − 0| > ǫ) = P (Xn > ǫ) = 1/n → 0. Sin embargo, la sucesión
no converge en media pues E|Xn − 0| = E(Xn ) = 1 −→ 6 0. ◦
Proposición. Convergencia en prob. ⇒ convergencia en dist.
p
Demostración. Suponga que Xn −→ X, y sea x un punto de continuidad
de FX (x). Para cualquier ǫ > 0,
FXn (x) = P (Xn ≤ x)
= P (Xn ≤ x, |Xn − X| ≤ ǫ) + P (Xn ≤ x, |Xn − X| > ǫ)
≤ P (X ≤ x + ǫ) + P (|Xn − X| > ǫ).
Por hipótesis el segundo sumando del lado derecho tiende a cero cuando n
tiende a infinito. Entonces para cualquier ǫ > 0,
lı́m sup FXn (x) ≤ FX (x + ǫ).
n→∞
Por la continuidad lateral,
lı́m sup FXn (x) ≤ FX (x).
n→∞
Ahora se demuestra la desigualdad inversa. Para cualquier ǫ > 0
FX (x − ǫ) = P (X ≤ x − ǫ)
= P (X ≤ x − ǫ, |Xn − X| ≤ ǫ) + P (X ≤ x − ǫ, |Xn − X| > ǫ)
≤ P (Xn ≤ x) + P (|Xn − X| > ǫ).
Nuevamente el segundo sumando tiende a cero cuando n tiende a infinito.
Entonces
FX (x − ǫ) ≤ lı́m inf FXn (x).
n→∞
290 7.2. Relaciones entre los tipos de convergencia
Por la continuidad en x,
FX (x) ≤ lı́m inf FXn (x).
n→∞
En resumen,
FX (x) ≤ lı́m inf FXn (x) ≤ lı́m sup FXn (x) ≤ FX (x).
n→∞ n→∞
El recı́proco de la proposición anterior no siempre es válido, es decir, la
convergencia en distribución no siempre implica la convergencia en proba-
bilidad.
Ejemplo. (En general, conv. en dist. =⇒ 6 conv. en prob.) Sea X con
distribución normal estándar, y sea
X si n es par,
Xn =
−X si n es impar.
Entonces claramente cada una de las variable Xn también tiene distribución normal
estándar y por lo tanto para cualquier número real x, FXn (x) → FX (x), es decir,
d
Xn −→ X. Sin embargo la sucesión no converge en probabilidad a X, pues para
valores impares de n y para valores pequeños de ǫ > 0,
P (|Xn − X| > ǫ) = P (2|X| > ǫ) > 1/2.
Lo anterior demuestra que lı́m P (|Xn − X| > ǫ) 6= 0. ◦
n→∞
Esto concluye la verificación y ejemplos de todas las implicaciones y no im-
plicaciones que se derivan del diagrama general presentado acerca de las
relaciones entre los tipos de convergencia mencionados. El lector interesado
en profundizar los temas aqui expuestos puede consultar el capı́tulo 5 del
libro de Karr [18], asi como los textos clásicos de teorı́a de la medida [5] o
[14], por ejemplo. Los resultados de convergencia en espacios de probabi-
lidad aqui mencionados pueden no ser válidos en espacios de medida más
generales.
Capı́tulo 7. Convergencia 291
7.3. Dos resultados importantes de convergencia
Sea X1 , X2 , . . . una sucesión de variables aleatorias con esperanza finita.
Suponga que Xn converge casi seguramente a X. Es natural preguntarse si
la sucesión de números E(Xn ) converge a E(X). Tal convergencia numérica
equivaldrı́a a poder intercambiar las operaciones de lı́mite y esperanza, es
decir,
lı́m E(Xn ) = E( lı́m Xn ).
n→∞ n→∞
Por ejemplo, considere el espacio ((0, 1), B(0, 1), P ), con P la medida de
probabilidad uniforme. Hemos considerado antes la sucesión de variables
aleatorias Xn = n · 1(0,1/n) , cuyo lı́mite es X = 0 casi seguramente. Sin
embargo E(Xn ) es siempre 1 y no converge a E(X) = 0. Este es un ejemplo
sencillo en donde no es válido intercambiar la esperanza y el lı́mite.
En esta sección se estudian dos resultados que establecen condiciones bajo
las cuales es válido este intercambio.
Teorema de convergencia monótona. Sea 0 ≤ X1 ≤ X2 ≤ · · ·
una sucesión de variables aleatorias convergente casi seguramente a una
variable X. Entonces
lı́m E(Xn ) = E(X).
n→∞
Demostración. Como 0 ≤ Xn ≤ X, entonces 0 ≤ E(Xn ) ≤ E(X). Por lo
tanto
lı́m E(Xn ) ≤ E(X).
n→∞
Ahora resta demostrar la desigualdad contraria. Primero se aproxima a X
de la siguiente forma. Sea ǫ > 0 arbitrario, y para cada entero k ≥ 0 defina
el evento
Ak = ( kǫ ≤ X < (k + 1)ǫ ).
292 7.3. Dos resultados importantes de convergencia
Esta es una colección de eventos disjuntos dos a dos, cuya unión es Ω. Defina
ahora la variable aleatoria discreta aproximante
Y (ω) = kǫ si kǫ ≤ X(ω) < (k + 1)ǫ.
Observe que Y aproxima a X de la forma: Y ≤ X < Y + ǫ. O bien X − ǫ <
Y ≤ X. Por lo tanto,
E(X) − ǫ ≤ E(Y ) ≤ E(X).
Para cada número natural n defina el evento Bn = (Xn ≥ Y ). No es difı́cil
comprobar que Bn ր Ω. Por lo tanto, para k fijo, Ak ∩ Bn ր Ak cuando
n → ∞, y entonces P (Ak ∩ Bn ) ր P (Ak ). Ahora considere la variable
aleatoria discreta Y · 1Bn dada por
Y (ω) si ω ∈ Bn ,
Y · 1Bn (ω) =
0 si ω ∈
/ Bn .
Entonces 0 ≤ Y · 1Bn ≤ Xn , y por lo tanto 0 ≤ E(Y · 1Bn ) ≤ E(Xn ).
Entonces
lı́m E(Xn ) ≥ lı́m E(Y · 1Bn )
n→∞ n→∞
∞
X
= lı́m E(Y · 1Bn ∩Ak )
n→∞
k=0
X∞
= lı́m kǫ · P (Bn ∩ Ak )
n→∞
k=0
Xm
≥ lı́m kǫ · P (Bn ∩ Ak )
n→∞
k=0
m
X
= kǫ · P (Ak ).
k=0
Como esta desigualdad es válida para cualquier m ≥ 0, se obtiene
∞
X
lı́m E(Xn ) ≥ kǫ · P (Ak ) = E(Y ) ≥ E(X) − ǫ.
n→∞
k=0
Capı́tulo 7. Convergencia 293
Dado que ǫ > 0 es arbitrario, se concluye que
lı́m E(Xn ) ≥ E(X).
n→∞
El siguiente resultado establece otro tipo de condición suficiente para obte-
ner la misma conclusión.
Teorema de convergencia dominada. Sea X1 , X2 , . . . una sucesión
de variables aleatorias para la cual existe otra variable Y integrable tal
que |Xn | ≤ Y , para n ≥ 1. Si lı́m Xn = X c.s., entonces X y Xn son
n→∞
integrables y
lı́m E(Xn ) = E(X).
n→∞
Demostración. Sea Yn = ı́nf{Xn , Xn+1 , . . .}. Entonces Yn ր X cuando n →
∞. Por lo tanto (Yn + Y ) ր (X + Y ), en donde Yn + Y ≥ 0, pues como
−Xn ≤ Y , entonces Xn ≥ −Y para toda n, y por lo tanto Yn ≥ −Y . Por el
teorema de convergencia monótona, E(Yn + Y ) ր E(X + Y ). De donde se
obtiene
E(Yn ) ր E(X).
Sea ahora Zn = sup{Xn , Xn+1 , . . .}. Entonces Zn ց X cuando n → ∞. Por
lo tanto (Y − Zn ) ր (Y − X), en donde Y − Zn ≥ 0, pues como Xn ≤ Y
para toda n, entonces Zn ≤ Y . Por el teorema de convergencia monótona,
E(Y − Zn ) ր E(Y − X). De donde se obtiene
E(Zn ) ց E(X).
Ahora observe que Yn ≤ Xn ≤ Zn . Por lo tanto E(Yn ) ≤ E(Xn ) ≤ E(Zn ).
Al hacer n tender a infinito se obtiene el resultado.
Estos dos teoremas son herramientas fuertes en la teorı́a de la probabilidad.
En particular, se usarán en la última parte del curso para formalizar algunas
demostraciones.
294 7.4. Ejercicios
7.4. Ejercicios
Convergencia casi segura
488. Demuestre que en la convergencia casi segura, el lı́mite es único casi
c.s. c.s.
seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
c.s.
489. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
c.s.
aXn + b −→ aX + b.
c.s. c.s.
490. Demuestre que si Xn −→ X y Yn −→ Y , entonces
c.s.
a) Xn + Yn −→ X + Y.
c.s.
b) Xn Yn −→ XY.
491. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ), con P la medi-
da de probabilidad uniforme. Demuestre que la sucesión Xn = n1[0,1/n)
converge casi seguramente a la variable aleatoria constante cero.
492. Condición equivalente para la convergencia casi segura.
c.s.
Demuestre que Xn −→ X si, y sólo si, para cualquier ǫ > 0,
P ( |Xn − X| > ǫ para una infinidad de valores de n ) = 0.
493. P
Use el ejercicio anterior para demostrar que si para cualquier ǫ > 0,
∞ c.s.
n=1 P (|Xn − X| > ǫ) < ∞, entonces Xn −→ X.
Convergencia en probabilidad
494. Demuestre que en la convergencia en probabilidad, el lı́mite es único
p p
casi seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
Capı́tulo 7. Convergencia 295
495. Considere el espacio de probabilidad ((0, 1], B(0, 1], P ), en donde P
es la medida de probabilidad uniforme. Defina las variables aleatorias
discretas
n
X k
Xn = 1 k−1 k .
n ( m ,n]
k=1
Demuestre que Xn converge en probabilidad a una variable aleatoria
con distribución uniforme en el intervalo (0, 1].
p
496. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
p
aXn + b −→ aX + b.
p p
497. Suponga que Xn −→ x y Yn −→ y, en donde x y y son dos números
reales fijos. Demuestre que
p
a) Xn + Yn −→ x + y.
p
b) Xn Yn −→ xy.
p
c) Si g es continua en x, entonces g(Xn ) −→ g(x).
p p
498. Demuestre que si Xn −→ X y Yn −→ Y , entonces
p
a) Xn + Yn −→ X + Y .
p
b) Xn Yn −→ XY .
499. Sean X1 , X2 , . . . variables aleatorias independientes cada una con dis-
tribución unif[a, b]. Demuestre que cuando n tiende a infinito
p
a) mı́n{X1 , . . . , Xn } −→ a.
p
b) máx{X1 , . . . , Xn } −→ b.
p p
500. Demuestre que si Xn −→ X, entonces Xn2 −→ X 2 .
296 7.4. Ejercicios
Convergencia en media
501. Demuestre que en la convergencia en media, el lı́mite es único casi
m m
seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces X = Y
casi seguramente.
m
502. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
m
aXn + b −→ aX + b.
m m m
503. Suponga que Xn −→ X y Yn −→ Y . Demuestre que Xn + Yn −→ X +
m
Y . Proporcione un contraejemplo para la afirmación: Xn Yn −→ XY .
m
504. Demuestre que si Xn −→ X, entonces E(Xn ) → E(X).
Convergencia en media cuadrática
505. Demuestre que en la convergencia en media cuadrática, el lı́mite es
m.c. m.c.
único casi seguramente, es decir, si Xn −→ X, y Xn −→ Y , entonces
X = Y casi seguramente.
m.c.
506. Sean a y b constantes. Demuestre que si Xn −→ X, entonces
m.c.
aXn + b −→ aX + b.
m.c.
507. Use la desigualdad de Cauchy-Schwarz para demostrar que si Xn −→
m.c.
X y Yn −→ Y , entonces
m.c.
Xn + Yn −→ X + Y.
m.c.
508. Demuestre que si Xn −→ X, entonces E(Xn2 ) → E(X 2 ).
Capı́tulo 7. Convergencia 297
Convergencia en distribución
509. Demuestre que en la convergencia en distribución, el lı́mite es único
d d
en distribución, es decir, si Xn −→ X, y Xn −→ Y , entonces X y Y
tienen la misma distribución.
d d
510. Sea c una constante y suponga que Xn −→ X y Yn −→ Y . Demuestre
que
d
a) cXn −→ cX.
d
b) Xn + c −→ X + c.
d
c) Xn + Yn −→ X + Y .
d d
511. Demuestre que si Xn −→ X y Yn −→ Y , entonces no necesariamente
d
Xn + Yn −→ X + Y.
512. Demuestre que
d p
a) si Xn −→ 0, entonces Xn −→ 0.
d d d
b) si Xn −→ 0 y Yn −→ 0, entonces Xn + Yn −→ 0.
d d d
c) si Xn −→ 0 y Yn −→ 0, entonces Xn Yn −→ 0.
513. Considere el espacio de probabilidad ([0, 1], B[0, 1], P ) en donde P es
la medida de probabilidad uniforme. Demuestre que la sucesión Xn =
1[0,1/2+1/n) converge en distribución a la variable aleatoria X = 1[0,1/2] .
514. Sea Xn con distribución unif[a − 1/n, a + 1/n], en donde a es una
d
constante. Demuestre que Xn −→ a.
515. Sea Xn con distribución uniforme en el conjunto {0, 1, . . . , n}, y sea
X continua con distribución uniforme en el intervalo [0, 1]. Demuestre
que
1 d
Xn −→ X.
n
298 7.4. Ejercicios
Relaciones entre los tipos de convergencia
516. Otro ejemplo de que la conv. casi segura no implica la
conv. en media. Sea X1 , X2 , . . . una sucesión de variables aleato-
rias independientes e idénticamente distribuidas tales que para cada
número natural n,
P (Xn = 0) = 1/4,
P (Xn = 1) = 1/2,
y P (Xn = 2) = 1/4.
Defina Yn = X1 · X2 · · · Xn . Demuestre que Yn converge a cero, casi
seguramente, pero no ası́ en media, ni en media cuadrática.
517. Sea A1 , A2 , . . . una sucesión de eventos convergente al evento A. ¿En
qué sentido la sucesión de variables aleatorias 1An converge a 1A ?
518. Sea Xn con distribución N(µn , σn2 ) y X con distribución N(µ, σ 2 ). Su-
ponga µn → µ y σn2 → σ 2 , con σn2 , σ 2 > 0. ¿En qué sentido Xn → X?
Capı́tulo 8
Funciones generadoras
En este capı́tulo se estudia la función generadora de probabilidad, la función
generadora de momentos y la función caracterı́stica. Estas funciones son
transformaciones de las distribuciones de probabilidad, y constituyen una
herramienta muy útil en la teorı́a moderna de la probabilidad.
8.1. Función generadora de probabilidad
Definición. (Función generadora de probabilidad). La función
generadora de probabilidad de una variable aleatoria X es la función
G(t) = E(tX ),
definida para valores reales de t tal que la esperanza sea convergente
absolutamente.
Cuando sea necesario especificarlo se escribe GX (t) en lugar de G(t), y se
usan las letras f.g.p. en lugar de función generadora de probabilidad. Es-
ta función se utiliza principalmente, aunque no únicamente, en el caso de
variables aleatorias con valores enteros. Sin pérdida de generalidad supon-
299
300 8.1. Función generadora de probabilidad
dremos que éstas toman valores en el conjunto {0, 1, . . .}, que corresponde
al caso de las variables aleatorias discretas estudiadas en este curso. En tal
situación,
X∞
G(t) = tk P (X = k).
k=0
Es decir, la f.g.p. es una serie de potencias en t, con coeficientes dados por
la distribución de probabilidad, por ende el nombre de dicha función. Es
importante observar que el radio de convergencia de esta serie es por lo
menos uno, pues para |t| < 1,
∞
X ∞
X
|G(t)| ≤ |t|k P (X = k) ≤ P (X = k) = 1.
k=0 k=0
Calculando la k-ésima derivada puede comprobarse además que a partir de
la f.g.p. puede reconstruirse la función de densidad a traves de la fórmula
P (X = k) = G(k) (0)/k!
Ejemplo. Sea X con distribución Poisson(λ). La f.g.p. de X está definida para
todo valor real de t y puede calcularse de la siguiente forma.
∞ ∞
X
k −λ λk X (λt)k
G(t) = t e = e−λ = e−λ eλt = e−λ(1−t) .
k! k!
k=0 k=0
En la siguiente tabla se muestran ejemplos de funciones generadoras de
probabilidad para algunas distribuciones discretas.
Capı́tulo 8. Funciones generadoras 301
Distribución Función generadora de probabilidad
unif{x1 , . . . , xn } G(t) = (tx1 + · · · + txn )/n
Ber(p) G(t) = 1 − p + pt
bin(n, p) G(t) = (1 − p + pt)n
geo(p) G(t) = p/[1 − t(1 − p)]
Poisson(λ) G(t) = e−λ(1−t)
bin neg(r, p) G(t) = (p/[1 − t(1 − p)])r
La función generadora de probabilidad determina de manera única a la
distribución en el siguiente sentido. Si X y Y tienen la misma distribución
de probabilidad, entonces naturalmente GX (t) = GY (t), para valores de t
donde esta esperanza exista. Inversamente, sean X y Y tales que GX (t) y
GY (t) existen y coinciden en algún intervalo no trivial alrededor del cero,
entonces X y Y tienen la misma distribución. Estas y otras propiedades
generales de la f.g.p. se estudian a continuación, más adelante se ilustran
estos resultados con algunos ejemplos.
302 8.1. Función generadora de probabilidad
Proposición. (Propiedades de la f.g.p.).
1. Sean X y Y variables aleatorias con valores en {0, 1, . . .} tales que
GX (t) y GY (t) existen y coinciden en algún intervalo alrededor de
t = 0. Entonces X y Y tienen la misma distribución de probabili-
dad.
2. Si el n-ésimo momento factorial de X existe, entonces
dn
lı́m GX (t) = E[X(X − 1) · · · (X − n + 1)].
tր1 dtn
3. Sean X y Y independientes con f.g.p. GX (t) y GY (t) respectiva-
mente, entonces GX+Y (t) = GX (t) GY (t).
Demostración.
1. Para cada k ≥ 0, sean ak = P (X = k) y bk = P (Y = k). La igualdad
GX (t) = GY (t) se escribe de la forma:
∞
X ∞
X
k
t ak = tk bk .
k=0 k=0
Para que estas dos series de potencias en t coincidan en algún inter-
valo no trivial alrededor del cero, sus coeficientes deben forzosamente
coincidir, es decir, ak = bk para cada k ≥ 0. Esto significa que las
distribuciones de probabilidad coinciden.
2. Como las series de potencia se pueden derivar término a término con-
Capı́tulo 8. Funciones generadoras 303
servándose el mismo radio de convergencia, se tiene que
∞
′ d X k
G (t) = t P (X = k)
dt
k=0
∞
X d k
= t P (X = k)
dt
k=0
∞
X
= ktk−1 P (X = k).
k=1
Como por hipótesis la esperanza existe, por el lema de Abel (ver
apéndice),
∞
X
lı́m G′ (t) = kP (X = k) = E(X).
tր1
k=1
Para la segunda derivada se tiene
∞
X
G′′ (t) = k(k − 1)tk−2 P (X = k),
k=2
de modo que cuando el segundo momento existe,
∞
X
′′
lı́m G (t) = k(k − 1)P (X = k) = E(X(X − 1)).
tր1
k=2
De manera análoga se demuestra para las derivadas de orden superior.
3. Cuando X y Y son independientes,
GX+Y (t) = E(tX+Y ) = E(tX tY ) = E(tX ) E(tY ) = GX (t) GY (t).
Ejemplo. Se ha encontrado que la f.g.p. de una variable aleatoria X con dis-
tribución Poisson(λ) es G(t) = e−λ(1−t) . Usando esta función encontraremos la
304 8.2. Función generadora de momentos
esperanza y varianza de X. Al derivar una vez se obtiene G′ (t) = λe−λ(1−t) , y
al evaluar en t = 1, E(X) = G′ (1) = λ. Derivando por segunda vez, G′′ (t) =
λ2 e−λ(1−t) , y en t = 1 se obtiene E(X(X − 1)) = G′′ (1) = λ2 . Por lo tanto
Var(X) = E(X 2 ) − E 2 (X) = λ2 + λ − λ2 = λ. ◦
Debido a la segunda propiedad, a la f.g.p. también se le conoce como función
generadora de momentos factoriales. Ahora se muestra el uso de esta función
para determinar la distribución de una variable aleatoria, el procedimiento
es elegante y sencillo.
Ejemplo. Suponga que X y Y son independientes con distribución Poisson(λ1 ) y
Poisson(λ2 ), respectivamente. Entonces
MX+Y (t) = MX (t) MY (t) = e−λ1 (1−t) e−λ2 (1−t) = e−(λ1 +λ2 )(1−t) .
Esta expresión corresponde a la f.g.p. de la distribución Poisson con parámetro
λ1 + λ2 . Debido a la unicidad, X + Y tiene distribución Poisson(λ1 + λ2 ). ◦
La definición de función generadora de probabilidad puede extenderse al
caso de vectores aleatorios de la siguiente forma. La f.g.p. del vector (X, Y )
es la función GX,Y (s, t) = E(sX tY ), para valores reales de s y t donde
esta esperanza sea absolutamente convergente. Puede demostrarse que las
variables X y Y son independientes si, y sólo si, GX,Y (s, t) = GX (s) GY (t).
La definición de f.g.p. para vectores de dimensión mayor es análoga.
8.2. Función generadora de momentos
Esta es otra función que se puede asociar a algunas distribuciones de pro-
babilidad. Su existencia no está garantizada en todos los casos, pero cuando
existe, determina de manera única a la distribución de probabilidad asocia-
da, y tiene propiedades semejantes a las de la función generadora de proba-
bilidad. La función generadora de momentos se utiliza tanto para variables
aleatorias discretas como continuas.
Capı́tulo 8. Funciones generadoras 305
Definición. (Función generadora de momentos). La función ge-
neradora de momentos de la variable aleatoria X es la función
M (t) = E(etX ),
definida para valores reales de t tales que la esperanza es absolutamente
convergente.
Nuevamente, cuando sea necesario especificarlo se escribe MX (t) en lugar
de M (t), y se usan las letras f.g.m. en lugar del término función generadora
de momentos. La parte importante de esta función es su existencia en una
vecindad no trivial alrededor del cero. Observe que la f.g.m. y la f.g.p. están
relacionadas, cuando existen, por la igualdad M (t) = G(et ).
Ejemplo. Sea X con distribución gama(n, λ). Entonces la f.g.m. de X puede
calcularse de la siguiente forma.
Z ∞
(λx)n−1
M (t) = etx λe−λx dx
0 Γ(n)
Z ∞
[(λ − t)x]n−1
= λn (λ − t)−n (λ − t)e−(λ−t)x dx
0 Γ(n)
= [λ/(λ − t)]n .
La última integral vale uno pues el integrando es la función de densidad de una
distribución gama. Observe que M (t) esta definida únicamente para valores de t
menores que λ. ◦
La siguiente tabla muestra algunos otros ejemplos de funciones generadoras
de momentos para ciertas distribuciones continuas.
306 8.2. Función generadora de momentos
Distribución Función generadora de momentos
unif(a, b) M (t) = (ebt − eat )/(bt − at)
exp(λ) M (t) = λ/(λ − t)
gama(n, λ) M (t) = [λ/(λ − t)]n
N(µ, σ 2 ) M (t) = exp(µt + σ 2 t2 /2)
χ2 (n) M (t) = (1 − 2t)−n/2
t(n) M (t) no existe para t 6= 0
Se demuestran a continuación algunas propiedades básicas de la f.g.m., y
después se muestra su utilidad mediante algunos ejemplos.
Proposición. Sea X con f.g.m. M (t) finita para cada t ∈ (−s, s), para
algún s > 0. Entonces
1. Todos los momentos de X son finitos.
∞
X tn
2. M (t) = E(X n ).
n=0
n!
3. M (t) tiene derivadas continuas de cualquier orden en (−s, s), y se
cumple
dn
n
M (t) = E(X n ).
dt t=0
Demostración.
Capı́tulo 8. Funciones generadoras 307
1. La prueba se basa en las identidades:
Z ∞ Z 0
E |X|n = n (1 − F (x)) xn−1 dx + n F (x) |x|n−1 dx,
0 −∞
Z ∞ Z0
y M (t) = 1 + t (1 − F (x)) etx dx − t F (x) etx dx,
0 −∞
en donde, por hipótesis, las dos integrales de M (t) son finitas para
cualquier t ∈ (−s, s). Demostraremos que cada integral de la expresión
de E|X|n es menor o igual a la correspondiente integral de M (t). Para
el caso x > 0 se toma cualquier t ∈ (0, s), y entonces
(tx)n
≤ etx .
n!
Es decir, xn ≤ (n!/tn )etx . De modo que, salvo constantes, la primera
integral de E|X|n es menor o igual a la primera integral de M (t),
siendo ésta última finita, la primera también. Para el caso x < 0
conviene tomar t ∈ (−s, 0), pues en tal caso tx > 0 y entonces
|tx|n
≤ e|tx| = etx .
n!
Es decir, |x|n ≤ (n!/|t|n )etx . Ahora la segunda integral de E|X|n es
menor o igual a la segunda integral de M (t), siendo ésta última finita,
la primera también. De esta forma todos los momentos de X existen
cuando M (t) es finita en algún intervalo no trivial alrededor del cero.
2. Se usa la fórmula
Z ∞ Z 0
n n−1
E(X ) = n (1 − F (x)) x dx − n F (x) xn−1 dx.
0 −∞
308 8.2. Función generadora de momentos
Entonces para cualquier t ∈ (−s, s), y m ≥ 1,
m m n Z ∞
X tn n
X t
E(X ) = 1 + n (1 − F (x)) xn−1 dx
n=0
n! n=1
n! 0
m n Z 0
X t
− n F (x) xn−1 dx
n! −∞
n=1
Z ∞ m−1
X tn
= 1+t (1 − F (x)) xn dx
0 n!
n=0
Z 0 m−1
X tn
−t F (x) xn dx.
−∞ n!
n=0
Usando el teorema de convergencia monótona, o el de convergencia
dominada, dependiendo de los valores de t y x, cada una de estas
integrales es convergente, para cualquier t ∈ (−s, s), cuando se hace
m tender a infinito. De modo que
∞ Z ∞ Z 0
X tn
E(X n ) = 1 + t (1 − F (x)) · etx dx − t F (x) · etx dx
n! 0 −∞
n=0
= M (t).
3. Dado que M (t) se puede expresar como una serie de potencias en t,
diferenciando y evaluando en cero se obtienen los coeficientes E(X n ).
Nota importante. El hecho de que el n-ésimo momento de una variable
aleatoria exista, no implica que éste puede ser hallado a través de la n-
ésima derivada de la f.g.m. evaluada en cero. Es decir, es necesario conocer
la existencia de la f.g.m. para que pueda ser utilizada para obtener los
momentos. Por ejemplo, una variable aleatoria con distribución t(n) tiene
esperanza cero pero su f.g.m. M (t) no existe para t distinto de cero.
Capı́tulo 8. Funciones generadoras 309
Ejemplo. Sea X con distribución gama(n, λ). Hemos encontrado antes que pa-
ra t < λ, M (t) = λn (λ − t)−n . Calcularemos ahora la esperanza y varianza
de X con ayuda de la f.g.m. Derivando una vez, M ′ (t) = λn n(λ − t)−n−1 . Al
evaluar en t = 0 se obtiene E(X) = n/λ. Derivando nuevamente, M ′′ (t) =
λn n(n + 1)(λ − t)−n−2 . Por lo tanto E(X 2 ) = M ′′ (0) = n(n + 1)/λ2 . Entonces
Var(X) = n(n + 1)/λ2 − n2 /λ2 = n/λ2 . ◦
Ejemplo. Suponga ahora que X y Y son independientes cada una con distribución
gama(n, λ) y gama(m, λ), respectivamente. Entonces la f.g.m. de X + Y es
MX+Y (t) = MX (t) MY (t) = λn (λ − t)−n λm (λ − t)−m = λn+m (λ − t)−n−m .
Esta es la expresión de la f.g.m. de la distribución gama, ahora con parámetros
n + m y λ. Se concluye entonces X + Y tiene distribución gama(n + m, λ). ◦
Nuevamente, es sencillo demostrar que la función generadora de la suma
de dos variables aleatorias independientes es el producto de las funciones
generadoras individuales.
Proposición. Sean X y Y son independientes, y cuyas f.g.m. existen
en una vecindad no trivial alrededor del cero. Entonces para cualquier
t ∈ (−s, s) para algún s > 0,
MX+Y (t) = MX (t) MY (t).
Demostración.
MX+Y (t) = E(et(X+Y ) ) = E(etX etY ) = E(etX ) E(etY ) = MX (t) MY (t).
Es interesante observar que la condición MX+Y (t) = MX (t) MY (t) no es
suficiente para concluir que X y Y son independientes. Esta afirmación
310 8.2. Función generadora de momentos
puede comprobarse considerando el caso cuando
f (x, y) = [1 + xy(x2 − y 2 )]/4, para − 1 < x, y < 1.
Como hemos mencionado antes, no todas las distribuciones de probabilidad
permiten calcular la función generadora de momentos dentro de un interva-
lo no trivial alrededor del cero, ni todos los cálculos son tan sencillos como
en el ejemplo mostrado. Como ya se ha mencionado antes, la f.g.m. de la
distribución Cauchy estándar no existe para valores de t distintos de cero,
esto se pide comprobar en el ejercicio 557. Cuando se tienen dos variables
X y Y con la misma distribución, entonces sus funciones generadoras de
momentos coinciden pues éstas de obtienen a través de la función de dis-
tribución común. Por el contrario, si MX (t) = MY (t) en una vecindad no
trivial alrededor del cero, entonces puede demostrarse que sus distribuciones
coinciden, este resultado y otro relativo a convergencia es el contenido de la
siguiente proposición, cuya demostración omitiremos.
Proposición.
1. (Unicidad). Las variables X y Y tienen la misma distribución si,
y sólo si, MX (t) = MY (t) para valores de t en una vecindad no
trivial alrededor del cero.
2. (Continuidad). Sea X1 , X2 , . . . una sucesión de variables aleato-
rias cuyas funciones generadoras de momentos existen todas ellas
en algún intervalo no trivial alrededor del cero. Sea X con f.g.m.
d
MX (t). Entonces Xn → X si, y sólo si, MXn (t) → MX (t).
Para el caso de vectores aleatorios se tiene la siguiente definición. La fun-
ción generadora de momentos del vector (X, Y ) es la función MX,Y (s, t) =
E(esX etY ), para valores reales de s y t donde esta esperanza sea absoluta-
mente convergente. Puede demostrarse que las variables X y Y son inde-
pendientes si, y sólo si, MX,Y (s, t) = MX (s) MY (t). La definición de f.g.m.
para vectores de dimensión mayor es análoga.
Capı́tulo 8. Funciones generadoras 311
En la sección de ejercicios se pueden encontrar las funciones generadoras de
momentos de algunas otras distribuciones de probabilidad, tanto discretas
como continuas, ası́ como en el primer apéndice al final del libro.
8.3. Función caracterı́stica
Esta es una función definida para cada distribución de probabilidad, y a
diferencia de las funciones generadoras de probabilidad y de momentos es-
tudiadas antes, siempre existe.
Definición. (Función caracterı́stica). La función caracterı́stica de
la variable aleatoria X es la función
φ(t) = E eitX ,
definida para cualquier número real t. El número i es la unidad de los
números imaginarios.
Observe que la transformación X 7→ eitX lleva una variable aleatoria real X
a una variable aleatoria con valores en los números complejos de la forma
cos(tX) + isen(tX), en donde cada parte de este número complejo es una
variable aleatoria real, es decir, se trata de un vector aleatorio bidimensional
como los estudiados anteriormente. La función caracterı́stica puede entonces
escribirse en la forma
φ(t) = E(cos tX) + iE(sen tX).
Nuevamente se escribe φX (t) cuando sea necesario especificar que se trata de
la función caracterı́stica de X, y se escribe simplemente f.c. en lugar de fun-
ción caracterı́stica. Observe que la f.c., la f.g.m. y la f.g.p. están relacionadas,
cuando existen las dos últimas, por las igualdades φ(t) = M (it) = G(eit ).
Se muestran a continuación algunos ejemplos de la forma de encontrar la
función caracterı́stica a partir de una distribución de probabilidad.
312 8.3. Función caracterı́stica
Ejemplo. Sea X con distribución bin(n, p). Entonces
φ(t) = E(eitX )
n
X
itx n
= e px (1 − p)n−x
x
x=0
n
X n
= (peit )x (1 − p)n−x
x
x=0
= (1 − p + peit )n .
Ejemplo. Sea X con distribución Poisson(λ). Entonces
φ(t) = E(eitX )
∞
X λx
= eitx [ e−λ ]
x=0
x!
∞
X (λeit )x
= e−λ
x=0
x!
it
= e−λ(1−e ) .
Otros ejemplos de funciones caracterı́sticas de distribuciones discretas se
muestra en la siguiente tabla. El lector puede comprobar cada una de estas
expresiones.
Capı́tulo 8. Funciones generadoras 313
Distribución Función caracterı́stica
Ber(p) φ(t) = 1 − p + peit
bin(n, p) φ(t) = (1 − p + peit )n
it
Poisson(λ) φ(t) = e−λ(1−e )
geo(p) φ(t) = p/(1 − (1 − p)eit )
bin neg(r, p) φ(t) = [p/(1 − (1 − p)eit )]r
Ahora se mostrará la forma de encontrar la función caracterı́stica para dos
distribuciones continuas: la distribución normal y la distribución gama.
Ejemplo. Sea X con distribución N(µ, σ2 ). Entonces
φ(t) = E(eitX )
Z ∞
1 2 2
= eitx · √ e−(x−µ) /2σ dx
−∞ 2πσ 2
Z ∞
1 2 2 2 2
= √ e−(x −2x(µ−itσ )+µ )/2σ dx
2πσ 2
−∞
Z ∞
(−µ +(µ−itσ2 )2 )/2σ2
2 1 2 2 2
= e √ e−[x−(µ−itσ )] /2σ dx
−∞ 2πσ 2
2
σ2 /2
= eitµ−t .
Observe que el último integrando es la función de densidad normal con media el
número complejo µ−itσ 2 , y varianza σ 2 . El hecho de que esta integral también vale
uno puede comprobarse, por ejemplo, usando el principio de continuación analı́tica
de la teorı́a de variable compleja. ◦
314 8.3. Función caracterı́stica
Ejemplo. Sea X con distribución gama(n, λ). Entonces
φ(t) = E(eitX )
Z ∞
(λx)n−1 −λx
= eitx · λe dx
Γ(n)
Z0 ∞
λ
= (λx)n−1 e−(λ−it)x dx
0 Γ(n)
Z ∞
λn [(λ − it)x]n−1
= n
(λ − it) e−(λ−it)x dx
(λ − it) 0 Γ(n)
λ n
= ( ) .
λ − it
El último integrando es la función de densidad de la distribución gama(z, λ − it).
Nuevamente usando la teorı́a de variable compleja puede demostrarse rigurosamen-
te que esta integral también vale uno. ◦
La siguiente tabla muestra algunos otros ejemplos de funciones caracterı́sti-
cas para variables aleatorias continuas.
Distribución Función caracterı́stica
unif(a, b) φ(t) = (eibt − eiat )/(ibt − iat)
exp(λ) φ(t) = λ/(λ − it)
gama(n, λ) φ(t) = [λ/(λ − it)]n
N(µ, σ 2 ) φ(t) = exp(iµt − σ 2 t2 /2)
χ2 (n) φ(t) = (1 − 2it)−n/2
t(n) φ(t) = e−|t| , cuando n = 1.
La existencia de la función caracterı́stica para cualquier distribución de
probabilidad se sigue del siguiente resultado.
Capı́tulo 8. Funciones generadoras 315
Proposición. (Existencia). Para cualquier número real t, |φ(t)| ≤ 1.
En particular, φ(0) = 1.
Demostración. Para cualquier número real t,
Z ∞ Z ∞ Z ∞
itx itx
|φ(t)| = | e dF (x)| ≤ |e | dF (x) = dF (x) = 1.
−∞ −∞ −∞
De modo que φ(t) es un número complejo de módulo menor o igual a uno,
para cualquier valor de t. Veremos a continuación algunas otras propiedades
de esta importante función. En particular, demostraremos que los momentos
de una variable aleatoria X pueden ser generados, cuando existen, con la f.c.
a través de la fórmula φ(n) (0) = in E(X n ), y como en el caso de las funciones
generadoras anteriores, cuando X y Y son independientes se cumple que
φX+Y (t) = φX (t) φY (t), no siendo válido el recı́proco.
Proposición. Si X tiene n-ésimo momento finito, entonces
dn
1. φ(t) = in E(X n ).
dtn
t=0
2. Cuando t → 0,
n−1
X (it)k (it)n
φ(t) = E(X k ) + ( E(X n ) + o(1) ). (8.1)
k! n!
k=0
Demostración.
316 8.3. Función caracterı́stica
1. Para cualquier h distinto de cero,
Z ∞ i(t+h)x
φ(t + h) − φ(t) e − eitx
= dF (x)
h −∞ h
Z ∞
eihx − 1
= eitx dF (x)
−∞ h
eihX − 1
= E[ eitX ]. (8.2)
h
eihx − 1
Como lı́m = ix, entonces, puntualmente,
h→0 h
eihX − 1
lı́m eitX = iX eitX .
h→0 h
Comprobaremos que las variables aleatorias de esta sucesión, parame-
trizada por h, estan uniformemente acotadas por una variable aleato-
ria integrable, en efecto,
Z Z
eihX − 1 eihX − 1 1 h 1 h isX
|eitX |=| |=| iX eisX ds| ≤ |X| |e | ds = |X|.
h h h 0 h 0
Por hipótesis, E|X| < ∞, de modo que usando el teorema de conver-
gencia dominada en (8.2) se obtiene
d
φ(t) = E[ iX eitX ].
dt
Por el mismo procedimiento se encuentra que
dn
φ(t) = E[ (iX)n eitX ].
dtn
Tomando el lı́mite cuando t → 0 y usando nuevamente el teorema de
convergencia dominada, se demuestra finalmente que
dn
n
φ(t) = in E(X n ).
dt t=0
Capı́tulo 8. Funciones generadoras 317
2. La fórmula se sigue del inciso anterior y del siguiente resultado de
análisis. Si g es una función con valores reales o complejos y definida
en algún intervalo no trivial alrededor del origen con g(n) (0) finita,
entonces cuando t → 0,
t2 ′′ tn−1 (n−1) tn
g(t) = g(0)+tg′ (0)+ g (0)+· · ·+ g (0)+ ( g(n) (0)+o(1) ).
2! (n − 1)! n!
En la última parte del curso se usará la expansión (8.1) para demostrar la
ley de los grandes números y el teorema del lı́mite central. Para el primer
resultado se supondrá el primer momento finito y la espansión adquiere la
expresión φ(t) = 1 + it( E(X) + o(1) ), cuando t → 0. Para el el teorema del
lı́mite central se supondrá el segundo momento finito y la expresión que se
usa es φ(t) = 1 + it E(X) + ((it)2 /2!)( E(X 2 ) + o(1) ), cuando t → 0.
Proposición. Si X y Y son independientes, entonces φX+Y (t) = φX (t)·
φY (t).
Demostración. Por independencia,
φX+Y (t) = E(eit(X+Y ) ) = E(eitX eitY ) = E(eitX ) E(eitY ) = φX (t) φY (t).
Nota importante. El resultado anterior establece en particular que el
producto de dos funciones caracterı́sticas es nuevamente una función carac-
terı́stica. Por otro lado, es necesario señalar que la condición φX+Y (t) =
φX (t) φY (t) no es suficiente para concluir que las variables aleatorias X y
Y son independientes. Para demostrar esto puede considerarse nuevamente
la distribución conjunta
f (x, y) = [1 + xy(x2 − y 2 )]/4, para − 1 < x, y < 1.
318 8.3. Función caracterı́stica
Otra de las propiedades fundamentales de la función caracterı́stica es su ca-
pacidad de determinar de manera única a las distribuciones de probabilidad.
A este respecto se tienen los siguientes resultados.
Proposición. (Fórmula de inversión de Lèvy). Sea X con función
de distribución F (x), y función caracterı́stica φ(t). Si x < y son puntos
de continuidad de F , entonces
Z T
1 e−itx − e−ity
F (y) − F (x) = lı́m φ(t) dt.
T →∞ 2π −T it
Cuando x y y no necesariamente son puntos de continuidad de F , el lado
izquierdo es 12 (F (y) + F (y−)) − 12 (F (x) + F (x−)).
Demostración. Para T > 0 sea
Z T −itx
1 e − e−ity
I(T ) = φ(t) dt
2π −T it
Z T −itx Z ∞
1 e − e−ity
= [ eitz dF (z)] dt
2π −T it −∞
Z T Z ∞ it(z−x)
1 e − eit(z−y)
= dF (z) dt
2π −T −∞ it
Z ∞ Z T it(z−x)
1 e − eit(z−y)
= dt dF (z).
2π −∞ −T it
El cambio en el orden de integración es permitido pues el integrando es una
función continua y acotada en t ∈ [−T, T ] y z ∈ R, incluyendo cuando t = 0,
pues puede definirse esta función de acuerdo a su comportamiento lı́mite en
ese punto, es decir,
eit(z−x) − eit(z−y)
lı́m = y − x.
t→0 it
Capı́tulo 8. Funciones generadoras 319
Desarrollando las exponenciales en términos de senos y cosenos se obtiene
Z ∞Z T
1 1
I(T ) = [ cos t(z − x) + i sen t(z − x)
2π −∞ −T it
− cos t(z − y) − i sen t(z − y) ] dt dF (z),
en donde para cualquier número real a, por ser coseno una función par, y
seno una función impar,
Z T
cos(at)
dt = 0,
−T t
Z T Z T
sen(at) sen(at)
y dt = 2 dt.
−T t 0 t
Por lo tanto
Z ∞ Z T Z T
1 sen t(z − x) sen t(z − y)
I(T ) = [2 dt − 2 dt ] dF (z).
2π −∞ 0 t 0 t
El siguiente paso consiste en aplicar el teorema de convergencia dominada
cuando T → ∞. La integral I(T ) es la esperanza de la variable aleatoria
Z T Z T
1 sen t(X − x) sen t(X − y)
XT = [2 dt − 2 dt ].
2π 0 t 0 t
Nos interesa encontrar el lı́mite de esta variable cuando T → ∞. Para ello
se hace uso del siguiente resultado no trivial:
Z T
sen at π si a > 0,
lı́m 2 dt = π · signo(a) = −π si a < 0,
T →∞ 0 t
0 si a = 0,
320 8.3. Función caracterı́stica
Entonces, puntualmente,
1
lı́m XT = [ π · signo(X − x) − π · signo(X − y) ]
T →∞ 2π
1
= ·1 (X) + 1(x,y) (X)
2 {x,y}
0 si X < x,
1/2 si X = x,
= 1 si x < X < y,
1/2 si X = y,
0 si X > y.
Además, las variables XT están acotadas en valor absoluto por una constante
pues para cualquier número real a,
Z T Z T
sen at sen t
| dt| ≤ sup | dt| < ∞.
0 t T >0 0 t
Por lo tanto
Z ∞
1
lı́m I(T ) = [· 1{x,y} (z) + 1(x,y) (z) ] dF (z)
T →∞ −∞ 2
1 1
= P (X = x) + P (X = y) + P (x < X < y)
2 2
1 1
= P (x < X ≤ y) + P (X = x) − P (X = y)
2 2
1 1
= F (y) − F (x) + P (X = x) − P (X = y)
2 2
1 1
= (F (y) + F (y−)) − (F (x) + F (x−)).
2 2
En particular, si x y y son puntos de continuidad de F , entonces el lı́mite
de la integral es igual a F (y) − F (x).
Como corolario del teorema de inversión demostraremos que la función ca-
racterı́stica determina de manera única a la distribución de probabilidad.
Capı́tulo 8. Funciones generadoras 321
Teorema de unicidad. Si X y Y son tales que φX (t) = φY (t) para
todo valor real de t, entonces X y Y tienen la misma distribución.
Demostración. Sea φ(t) la función caracterı́stica común, y sea z cualquier
número real. Escóganse x y y tales que x < z < y. Haciendo x tender a −∞,
y y ց z, en la fórmula de inversión de Lèvy, se obtiene una única función
de distribución dada por
Z T −itx
1 e − e−ity
F (z) = lı́m lı́m lı́m φ(t) dt.
yցz xց−∞ T →∞ 2π −T it
Cuando la condición φX (t) = φY (t) sólo se cumple en una vecindad del
cero, no es necesariamente cierto que la distribución de probabilidad queda
completamente especificada. Véase [13] para un ejemplo al respecto.
En el caso absolutamente continuo se tiene la siguiente fórmula explı́cita.
Proposición (Fórmula de inversión en el caso abs. continuo).
Sea X absolutamente continua con función de densidad f (x), y función
caracterı́stica φ(t). Entonces
Z ∞
1
f (x) = e−itx φ(t) dt.
2π −∞
Demostración. Sean x < y, dos puntos de continuidad de F . Por el teorema
322 8.3. Función caracterı́stica
de inversión de Lèvy, y por el teorema de Fubini,
Z T −itx
1 e − e−ity
F (y) − F (x) = lı́m φ(t) dt
T →∞ 2π −T it
Z ∞ −itx
1 e − e−ity
= φ(t) dt
2π −∞ it
Z ∞ Z y
1 −itx
= e dx φ(t) dt.
2π −∞ x
Z y Z ∞
1 −itx
= e φ(t) dt dx.
x 2π −∞
Por lo tanto el integrando debe ser la función de densidad de X.
Es necesario señalar que el uso de esta fórmula requiere conocer de antemano
que la función caracterı́stica proviene de una variable aleatoria absoluta-
mente continua. De aqui surge el problema, que únicamente mencionamos,
de encontrar condiciones sobre φ(t) que garanticen que la correspondiente
variable aleatoria es absolutamente continua.
Ahora se demuestra un resultado que será de utilidad en la última parte
del curso y que establece que la convergencia en distribución es equivalente
a la convergencia puntual de las correspondientes funciones caracterı́sticas.
El resultado es válido como esta enunciado pero sólo demostraremos una de
las implicaciones.
Teorema de Continuidad. Sean X, X1 , X2 , . . . variables aleatorias.
d
Entonces Xn → X si, y sólo si, φXn (t) → φX (t).
Demostración. (⇐) Suponga que φXn (t) → φX (t). Entonces para dos pun-
tos de continuidad x < y de FX , el teorema de inversión de Lèvy establece
Capı́tulo 8. Funciones generadoras 323
que
Z T
1 e−itx − e−ity
FX (y) − FX (x) = lı́m φ(t) dt.
T →∞ 2π −T it
Z T
1 e−itx − e−ity
= lı́m [ lı́m φXn (t) ] dt.
T →∞ 2π −T it n→∞
Z T −itx
1 e − e−ity
= lı́m lı́m [ φXn (t) ] dt.
n→∞ T →∞ 2π −T it
= lı́m FXn (y) − FXn (x).
n→∞
Haciendo x tender a −∞ se obtiene FX (y) = lı́m FXn (y).
n→∞
En el siguiente capı́tulo usaremos este resultado para demostrar el teorema
central del lı́mite. Finalmente mencionamos la definición de función carac-
terı́stica para vectores aleatorios. La f.c. del vector (X, Y ) es la función
φX,Y (s, t) = E(eisX eitY ), para valores reales de s y t donde esta esperan-
za sea absolutamente convergente. Nuevamente puede demostrarse que las
variables X y Y son independientes si, y sólo si, φX,Y (s, t) = φX (s) φY (t).
De manera análoga puede definirse la función caracterı́stica para vectores
de dimensión mayor.
324 8.4. Ejercicios
8.4. Ejercicios
Función generadora de probabilidad
519. Sea X con varianza finita y con f.g.p. G(t). Demuestre que
a) E(X) = G′ (1−).
b) E(X 2 ) = G′′ (1−) + G′ (1−).
c) Var(X) = G′′ (1−) + G′ (1−) − [G′ (1−)]2 .
520. Sean X y Y independientes y sean a y b dos constantes. Demuestre
que
a) P (X = k) = G(k) (0)/k! para k = 0, 1, . . .
b) GaX+b (t) = tb GX (ta ).
c) GX−Y (t) = GX (t) GY (1/t).
521. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.p. Gk (t), para
k = 1, . . . , n. Demuestre que GX1 +···+Xn (t) = G1 (t) · · · Gn (t).
522. Demuestre o proporcione un contraejemplo: Si GX+Y (t) = GX (t) ·
GY (t), para valores de t en algún intervalo no trivial alrededor del
cero, entonces X y Y son independientes.
523. Sea X1 , X2 , . . . una sucesión de v.a.i.i.d. con f.g.p. GX (t). Sea N otra
variable aleatoria con valores en N, independiente de la sucesión y con
f.g.p. GN (t). Sea S = X1 + · · · + XN . Demuestre que
a) GS (t) = GN (GX (t)).
b) E(S) = E(N )E(X), usando GS (t).
c) Var(S) = E 2 (X) Var(N ) + E(N ) Var(X), usando GS (t).
524. Encuentre la función generadora de probabilidad, si existe, de una
variable aleatoria con función de densidad
Capı́tulo 8. Funciones generadoras 325
1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
1
b) f (x) = , para x = 1, 2, . . .
x(x + 1)
525. Sea X con distribución Ber(p). Demuestre que
a) G(t) = 1 − p + pt.
b) E(X) = p, usando G(t).
c) Var(X) = p(1 − p), usando G(t).
d) E(X n ) = p, usando G(t).
526. Sea X con distribución bin(n, p). Demuestre que
a) G(t) = (1 − p + pt)n .
b) E(X) = np, usando G(t).
c) Var(X) = np(1 − p), usando G(t).
527. Sean X1 , . . . , Xn variables aleatorias independientes, cada una con dis-
tribución Ber(p). Use la f.g.p. para demostrar que la variable X1 +· · ·+
Xn tiene distribución bin(n, p).
528. Sean X y Y independientes con distribución bin(n, p) y bin(m, p),
respectivamente. Use la f.g.p. para demostrar que la variable X + Y
tiene distribución bin(n + m, p).
529. Sea X con distribución bin(N, p), en donde N es una variable aleatoria
con distribución bin(n, r). Use la f.g.p. para demostrar que X tiene
distribución bin(n, rp).
530. Sea X con distribución geo(p). Demuestre que
a) G(t) = p/[1 − t(1 − p)].
b) E(X) = (1 − p)/p, usando G(t).
c) Var(X) = (1 − p)/p2 , usando G(t).
326 8.4. Ejercicios
531. Sea X con distribución Poisson(λ). Demuestre que
a) G(t) = e−λ(1−t) .
b) E(X) = λ, usando G(t).
c) Var(X) = λ, usando G(t).
532. Sean X y Y independientes con distribución Poisson con parámetros
λ1 y λ2 respectivamente. Use la f.g.p. para demostrar que la variable
X + Y tiene distribución Poisson(λ1 + λ2 ).
533. Sea X con distribución bin neg(r, p). Demuestre que
a) G(t) = [p/(1 − t(1 − p))]r .
b) E(X) = r(1 − p)/p, usando G(t).
c) Var(X) = r(1 − p)/p2 , usando G(t).
Función generadora de momentos
534. Encuentre la función generadora de momentos, si existe, de una va-
riable aleatoria con función de densidad
1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
b) f (x) = e−|x| /2, para −∞ < x < ∞.
535. Sea X con varianza finita y con f.g.m. M (t). Demuestre que
a) E(X) = M ′ (0).
b) E(X 2 ) = M ′′ (0).
c) Var(X) = M ′′ (0) − (M ′ (0))2 .
536. Sean X y Y independientes e idénticamente distribuidas con f.g.m.
M (t). Demuestre que MX−Y (t) = M (t) · M (−t).
537. Sea X con f.g.m. MX (t), y sean a y b dos constantes. Demuestre que
MaX+b (t) = etb MX (at).
Capı́tulo 8. Funciones generadoras 327
538. Sea X con f.g.m. MX (t). Diga falso o verdadero, demuestre en cada
caso.
a) MX (t) ≥ 0.
b) M2X (t) = MX (2t).
c) MX 2 (t) = MX (tX).
539. Sea X con distribución Ber(p). Demuestre que
a) M (t) = 1 − p + pet .
b) E(X) = p, usando M (t).
c) E(X n ) = p, usando M (t).
d) Var(X) = p(1 − p), usando M (t).
540. Sea X con distribución bin(n, p). Demuestre que
a) M (t) = (1 − p + pet )n .
b) E(X) = np, usando M (t).
c) Var(X) = np(1 − p), usando M (t).
541. Sean X1 , . . . , Xn independientes cada una con distribución Ber(p). Use
la f.g.m. para demostrar que la variable X1 +· · ·+Xn tiene distribución
bin(n, p).
542. Sean X y Y independientes con distribución bin(n, p) y bin(m, p) res-
pectivamente. Use la f.g.m. para demostrar que X + Y tiene distribu-
ción bin(n + m, p).
543. Sea X con distribución geo(p). Demuestre que
a) M (t) = p/[1 − (1 − p)et ].
b) E(X) = (1 − p)/p, usando M (t).
c) Var(X) = (1 − p)/p2 , usando M (t).
544. Sea X con distribución Poisson(λ). Demuestre que
328 8.4. Ejercicios
a) M (t) = exp[λ(et − 1)].
b) M ′′ (t) = M ′ (t) + λet M ′ (t).
c) E(X) = λ, usando M (t).
d) Var(X) = λ, usando M (t).
e) E[(X − λ)3 ] = λ, usando M (t).
545. Sea X con distribución unif(a, b). Demuestre que
ebt − eat
a) M (t) = .
(b − a)t
b) E(X) = (a + b)/2, usando M (t).
c) Var(X) = (b − a)2 /12, usando M (t).
546. Sea X con distribución exp(λ). Demuestre que
a) M (t) = λ/(λ − t), para t < λ.
b) E(X) = 1/λ, usando M (t).
c) Var(X) = 1/λ2 , usando M (t).
547. Sea X con distribución N(µ, σ 2 ). Demuestre que
a) M (t) = exp(µt + σ 2 t2 /2).
b) E(X) = µ, usando M (t).
c) Var(X) = σ 2 , usando M (t).
548. Sean X y Y independientes con distribución N(µ1 , σ12 ) y N(µ2 , σ22 )
respectivamente. Use la f.g.m. para demostrar que X + Y tiene distri-
bución normal con media µ1 + µ2 y varianza σ12 + σ22 .
549. Sea X con distribución gama(n, λ). Demuestre que
a) M (t) = [λ/(λ − t)]n , para t < λ.
b) E(X) = n/λ, usando M (t).
c) Var(X) = n/λ2 , usando M (t).
Capı́tulo 8. Funciones generadoras 329
550. Sean X y Y independientes ambas con distribución exp(λ). Use la
f.g.m. para demostrar que X + Y tiene distribución gama(2, λ).
551. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la f.g.m. para demostrar que la variable X + Y
tiene distribución gama(n + m, λ).
552. Sea X con distribución χ2 (n). Demuestre que
a) M (t) = [1/(1 − 2t)]n/2 , para t < 1/2.
b) E(X) = n, usando M (t).
c) Var(X) = 2n, usando M (t).
553. Use la f.g.m. para demostrar que si X y Y son independientes tales
que X tiene distribución χ2 (n) y X + Y tiene distribución χ2 (m) con
m > n, entonces Y tiene distribución χ2 (m − n).
554. Sean X y Y independientes con distribución χ2 (n) y χ2 (m) respecti-
vamente. Use la f.g.m. para demostrar que X + Y tiene distribución
χ2 (n + m).
555. Sea X con distribución N(µ, σ 2 ). Use la f.g.m. para demostrar que
a) −X tiene distribución N(−µ, σ 2 ).
b) aX + b tiene distribución N(aµ + b, a2 σ 2 ), con a 6= 0.
c) X 2 tiene distribución χ2 (1).
556. Sean X1 , . . . , Xn independientes tales que Xk tiene f.g.m. Mk (t) para
k = 1, . . . , n. Demuestre que MX1 +···+Xn (t) = M1 (t) · · · Mn (t).
557. Sea X con distribución Cauchy estándar. Demuestre que
1 si t = 0,
MX (t) =
∞ si t 6= 0.
558. Sea X con distribución t(n). Demuestre que
1 si t = 0,
MX (t) =
∞ si t 6= 0.
330 8.4. Ejercicios
559. Sea n un número natural. Demuestre que no existe la f.g.m. de la
siguiente función de densidad. Esta distribución tiene momentos fini-
tos de orden 1, 2, . . . , n − 1, pero el n-ésimo momento y superiores no
existen.
n/xn+1 si x > 1,
f (x) =
0 otro caso.
Función caracterı́stica
560. Encuentre la función caracterı́stica de una variable aleatoria con fun-
ción de densidad
1
a) f (x) = , para x = 1, 2, . . .
x!(e − 1)
b) f (x) = e−|x| /2, para −∞ < x < ∞.
561. Sea X con función caracterı́stica φX (t), y sean a y b dos constantes.
Demuestre que φaX+b (t) = eitb φX (at).
562. Demuestre que una función de distribución F (x) es simétrica si, y sólo
si, la correspondiente función caracterı́stica φ(t) es real.
563. Demuestre que la función caracterı́stica es una función uniformemente
continua, es decir, para todo ǫ > 0 existe δ > 0 tal que para todo t y
s con |t − s| < δ, se cumple que |φ(t) − φ(s)| < ǫ.
564. Demuestre que la función caracterı́stica satisface la igualdad φ(−t) =
φ(t), en donde z denota el complejo conjugado de z.
565. Sean φ1 (t) y φ2 (t) dos funciones caracterı́sticas, y sea α ∈ [0, 1]. De-
muestre que la combinación lineal convexa αφ1 (t) + (1 − α)φ2 (t) es
una función caracterı́stica.
566. Sean X y Y independientes y con idéntica distribución. Demuestre
que φX−Y (t) = |φX (t)|2 , en este caso la función caracterı́stica es una
función real por que la variable X − Y es simétrica.
Capı́tulo 8. Funciones generadoras 331
567. Sea X con distribución Ber(p). Demuestre que
a) φ(t) = 1 − p + peit .
b) E(X) = p, usando φ(t).
c) Var(X) = p(1 − p), usando φ(t).
d) E(X n ) = p, usando φ(t), con n ≥ 1 entero.
568. Sea X con distribución bin(n, p). Hemos demostrado que la función
caracterı́stica de esta distribución es φ(t) = (1 − p + peit )n . Usando
φ(t) demuestre ahora que
a) E(X) = np.
b) E(X 2 ) = np(1 − p + np).
c) Var(X) = np(1 − p).
569. Sea X con distribución Poisson(λ). Hemos demostrado que la función
caracterı́stica de esta distribución es φ(t) = exp[−λ(1 − eit )]. Usando
φ(t) compruebe que
a) E(X) = λ.
b) E(X 2 ) = λ(λ + 1).
c) Var(X) = λ.
570. Sea X con distribución geo(p). Demuestre que
a) φ(t) = p/(1 − (1 − p)eit ).
b) E(X) = (1 − p)/p, usando φ(t).
c) Var(X) = (1 − p)/p2 , usando φ(t).
571. Sea X tiene distribución bin neg(r, p). Demuestre que
a) φ(t) = [p/(1 − (1 − p)eit )]r .
b) E(X) = r(1 − p)/p, usando φ(t).
c) Var(X) = r(1 − p)/p2 , usando φ(t).
332 8.4. Ejercicios
572. Sea X con distribución unif(−a, a). Demuestre que φ(t) = (sen at)/at.
573. Sea X con distribución unif(a, b). Demuestre que
a) φ(t) = [eibt − eiat ]/[it(b − a)].
b) E(X) = (a + b)/2, usando φ(t).
c) Var(X) = (b − a)2 /12, usando φ(t).
574. Sea X con distribución N(µ, σ 2 ). Hemos demostrado que la función
caracterı́stica de esta distribución es φ(t) = exp (iµt−σ 2 t2 /2). Usando
φ(t) compruebe que E(X) = µ y Var(X) = σ 2 .
575. Sea X con distribución normal estándar. Use la función caracterı́stica
para demostrar que para n = 0, 1, . . .
n!
n
n/2
si n es par,
E(X ) = 2 (n/2)!
0 si n es impar.
576. Sea X con distribución exp(λ). Demuestre que φ(t) = λ/(λ − it). Use
φ(t) para comprobar que E(X) = 1/λ, y Var(X) = 1/λ2 .
577. Sea X con distribución gama(n, λ). Hemos encontrado que la función
caracterı́stica de esta distribución es φ(t) = [λ/(λ − it)]n . Usando φ(t)
compruebe nuevamente que
a) E(X) = n/λ.
Γ(m + n)
b) E(X m ) = m , para m = 0, 1, . . .
λ Γ(n)
c) Var(X) = n/λ2 .
578. Sean X y Y independientes ambas con distribución exp(λ). Use la
función caracterı́stica para demostrar que la variable X + Y tiene
distribución gama(2, λ).
579. Sean X y Y independientes con distribución gama(n, λ) y gama(m, λ)
respectivamente. Use la función caracterı́stica para demostrar que la
variable X + Y tiene distribución gama(n + m, λ).
Capı́tulo 8. Funciones generadoras 333
580. Sea X con función de distribución F (x) = ex /(1 + ex ). Demuestre
que F (x) es efectivamente una función de distribución, y calcule su
función caracterı́stica asociada. Con ayuda de ésta última encuentre
la esperanza y la varianza de X.
581. Sean X y Y independientes. Demuestre que
Z ∞ Z ∞
φXY (t) = φY (tx)dFX (x) = φX (ty)dFY (y).
−∞ −∞
582. Mediante el cálculo de residuos de la teorı́a de variable compleja puede
demostrarse que la distribución Cauchy estándar tiene función carac-
terı́stica Z ∞
1
φ(t) = eitx 2)
dx = e−|t| .
−∞ π(1 + x
Suponiendo este resultado, encuentre el error en el siguiente argu-
mento para encontrar la f.g.m. de la distribución Cauchy: “Como
φ(t) = e−|t| y M (t) = φ(−it), entonces M (t) = e−|−it| = e−|t| .” El
caso es que no existe la f.g.m. para la distribución Cauchy.
583. Sean X1 , . . . , Xn independientes cada una de ellas con distribución
Cauchy estándar, es decir, la función caracterı́stica es φ(t) = e−|t| .
Use este resultado para demostrar que la v.a. Sn = (X1 + · · · + Xn )/n
tiene distribución Cauchy estándar para cualquier valor de n.
Capı́tulo 9
Dos teoremas lı́mite
En este último capı́tulo se estudian dos de los teoremas más importantes en
probabilidad: la ley de los grandes números y el teorema central del lı́mite.
Antes de ello se revisan algunas desigualdades de interés general.
9.1. Algunas desigualdades
Proposición. (Desigualdad de Markov). Sea X ≥ 0 una variable
aleatoria con esperanza finita. Para cualquier ǫ > 0,
E(X)
P (X ≥ ǫ) ≤ .
ǫ
335
336 9.1. Algunas desigualdades
Demostración.
E(X) = E( X · 1(X≥ǫ) + X · 1(X<ǫ) )
≥ E( X · 1(X≥ǫ) )
≥ E( ǫ · 1(X≥ǫ) )
= ǫ P (X ≥ ǫ).
En palabras, este resultado establece que la probabilidad de que X exceda
un valor ǫ positivo está acotada superiormente por la media entre ǫ. Existen
otras versiones equivalentes de esta desigualdad, por ejemplo,
a) P (|X| ≥ ǫ) ≤ E|X|/ǫ.
b) P (|X| ≥ ǫ) ≤ E|X|n /ǫn , con n en N.
La siguiente desigualdad será usada en la siguiente sección para demostrar
la ley débil de los grandes números.
Proposición. (Desigualdad de Chebyshev). Sea X una variable
aleatoria con media µ y varianza finita σ 2 . Para cualquier ǫ > 0,
σ2
P (|X − µ| ≥ ǫ) ≤ . (9.1)
ǫ2
Demostración.
σ 2 = E (X − µ)2
= E (X − µ)2 · 1(|X−µ|≥ǫ) + (X − µ)2 · 1(|X−µ|<ǫ)
≥ E (X − µ)2 · 1(|X−µ|≥ǫ)
≥ E ǫ2 · 1(|X−µ|≥ǫ)
= ǫ2 P (|X − µ| ≥ ǫ).
Capı́tulo 9. Dos teoremas lı́mite 337
En palabras, la desigualdad dice que la probabilidad de que X difiera de
su media en mas de ǫ está acotada superiormente por la varianza entre
ǫ2 . A este resultado se le conoce también con el nombre de desigualdad de
Chebyshev-Bienaymé. Existen otras versiones de esta desigualdad equiva-
lentes a la demostrada, por ejemplo,
a) P (|X − µ| ≥ ǫσ) ≤ 1/ǫ2 .
b) P (|X − µ| < ǫσ) ≥ 1 − 1/ǫ2 .
c) P (|X − µ| < ǫ) ≥ 1 − σ 2 /ǫ2 .
Ahora demostraremos una versión de la desigualdad de Chebyshev un poco
más general.
Proposición. (Desigualdad de Chebyshev extendida). Sea X
una variable aleatoria, y sea g ≥ 0 una función no decreciente tal que
g(X) es una variable aleatoria con esperanza finita. Para cualquier ǫ > 0,
E[g(X)]
P (X ≥ ǫ) ≤ . (9.2)
g(ǫ)
Demostración.
E[g(X)] = E[ g(X) · 1(X≥ǫ) + g(X) · 1(X<ǫ) ]
≥ E[ g(X) · 1(X≥ǫ) ]
≥ E[ g(ǫ) · 1(X≥ǫ) ]
= g(ǫ)P (X ≥ ǫ).
338 9.1. Algunas desigualdades
Pafnuty Lvovich Chebyshev Andrei Andreyevich Markov
(Rusia, 1821–1894) (Rusia, 1856–1922)
Profesor y alumno.
Fuente: Archivo MacTutor, Universidad de St. Andrews.
A partir de la desigualdad de Chebyshev extendida y con una función g
adecuada se pueden obtener tanto la desigualdad de Chebyshev como la
desigualdad de Markov.
Proposición. (Desigualdad de Kolmogorov). Sean X1 , . . . , Xn in-
dependientes con media cero y segundo momento finito. Para cualquier
ǫ > 0,
n
1 X
P ( máx {|X1 + · · · + Xk |} ≥ ǫ ) ≤ 2 Var(Xk ).
k ǫ
k=1
Demostración. Para cada k = 1, . . . , n, defina Sk = X1 + · · · + Xk , cuya
esperanza es cero por hipótesis. Observe que las variables Sk y Sn − Sk son
independientes y por lo tanto E(Sk (Sn − Sk )) = 0. Defina ahora los eventos
disjuntos
k−1
\
Ak = ( |Sk | ≥ ǫ ) ∩ ( |Si | < ǫ ),
i=1
Capı́tulo 9. Dos teoremas lı́mite 339
en donde enSparticular A1 = ( |S1 | ≥ ǫ ). El evento de interés puede escribirse
como A = nk=1 Ak . Entonces
E(Sn2 ) ≥ E(Sn2 1A )
Xn
= E(Sn2 1Ak )
k=1
n
X
= E( (Sk + (Sn − Sk ))2 1Ak )
k=1
n
X
= E( (Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk )2 ) 1Ak )
k=1
n
X
≥ E(Sk2 1Ak )
k=1
n
X
≥ ǫ2 E(1Ak )
k=1
n
X
≥ ǫ2 P (Ak )
k=1
2
= ǫ P (A).
Pn
El resultado se obtiene al observar que E(Sn2 ) = Var(Sn ) = k=1 Var(Xk ).
Cuando n = 1 la desigualdad de Kolmogorov se reduce a la desigualdad de
Chebyshev.
En resumen se tiene la siguiente tabla.
340 9.2. Ley de los grandes números
Algunas desigualdades
Markov: a) P (X ≥ ǫ) ≤ E(X)/ǫ, para X ≥ 0.
b) P (|X| ≥ ǫ) ≤ E|X|/ǫ.
c) P (|X| ≥ ǫ) ≤ E|X|n /ǫn .
Chebyshev: a) P (|X − µ| ≥ ǫ) ≤ Var(X)/ǫ2 .
b) P (X ≥ ǫ) ≤ E[g(X)]/g(ǫ), con g ≥ 0 no decreciente.
n
1 X
Kolmogorov: P ( máx{|X1 + · · · + Xk |} ≥ ǫ ) ≤ Var(Xk ).
k ǫ2
k=1
9.2. Ley de los grandes números
Este interesante resultado establece que, bajo ciertas condiciones, el prome-
dio de variables aleatorias converge a una constante cuando el número de
sumandos crece a infinito. Demostraremos dos versiones de esta afirmación,
las cuales se distinguen por el tipo de convergencia de la que se trate. La
ley débil establece la convergencia en probabilidad y la ley fuerte dice que
la convergencia es casi segura. La ley fuerte implica entonces la ley débil.
Existen además varias generalizaciones de este resultado.
Teorema de Bernoulli. (Ley débil de los grandes números).
Sean X1 , X2 , . . . independientes e idénticamente distribuidas con media
µ. Entonces
n
1X p
Xi −→ µ.
n
i=1
Demostración. Sea Sn = (X1 + · · · + Xn )/n, y sea φ(t) la función carac-
Capı́tulo 9. Dos teoremas lı́mite 341
terı́stica de cualquier elemento X de la sucesión. Como X tiene esperanza
finita µ y por la expansión (8.1),
φ(t) = 1 + it(µ + o(1)), cuando t → 0.
Por independencia la función caracterı́stica de Sn es entonces
φSn (t) = φn (t/n) = ( 1 + i(t/n)(µ + o(1)) )n , cuando t → 0,
Haciendo n → ∞ se obtiene φSn (t) → eiµt , en donde eiµt es la función
d
caracterı́stica de la variable aleatoria constante µ. Esto implica que Sn → µ.
El resultado se obtiene al recordar que la convergencia en distribución a una
constante es equivalente a la convergencia en probabilidad.
Este mismo resultado puede demostrarse fácilmente a partir de la desigual-
dad de Chebysheves bajo la hipótesis adicional de existencia de la varianza.
El argumento es el siguiente. Sea nuevamente Sn = (X1 + · · · + Xn )/n.
Entonces E(Sn ) = µ y Var(Sn ) = σ 2 /n, suponiendo Var(X) = σ 2 < ∞.
La desigualdad de Chebyshev aplicada a la variable Sn asegura que para
cualquier ǫ > 0 se cumple P (|Sn − µ| ≥ ǫ) ≤ σ 2 /nǫ2 . Basta ahora tomar el
lı́mite cuando n tiende a infinito para obtener el resultado.
Damos a continuación un ejemplo sencillo de aplicación de la ley débil y
más adelante demostramos la ley fuerte.
Ejemplo (Probabilidad frecuentista). Considere un experimento aleatorio
cualquiera y sea A un evento. Se efectúan realizaciones independientes del experi-
mento, y se observa en cada ensayo la ocurrencia o no ocurrencia del evento A. Sea
Xk la variable que toma el valor uno si en el k-ésimo ensayo se observa A, y cero
en caso contrario. Entonces las variables X1 , X2 , . . . son independientes cada una
con distribución Ber(p), en donde p es la probabilidad desconocida del evento A.
Por lo tanto E(Xk ) = p y Var(Xk ) = p(1 − p). La ley débil de los grandes núme-
ros asegura que la fracción de ensayos en los que se observa el evento A converge,
en probabilidad, a la constante desconocida p cuando el número de ensayos crece
a infinito. Esta es la definición frecuentista de la probabilidad, y hemos entonces
342 9.2. Ley de los grandes números
corroborado su validez con ayuda de la ley de los grandes números. ◦
Teorema. (Ley fuerte de los grandes números). Sean X1 , X2 , . . .
independientes e idénticamente distribuidas con media µ. Entonces
n
1X c.s.
Xi −→ µ.
n
i=1
Demostración. (Suponiendo cuarto momento finito). Dada la idéntica dis-
tribución de los elementos de la sucesión, cualquier elemento de ésta se
denota simplemente por X. Suponga que E|X − µ|2 = σ 2 y observe que
E(X − µ) = 0. Entonces por independencia,
n
X
E| (Xi − µ)|4 = nE|X − µ|4 + 3n(n − 1)σ 4 .
i=1
Pn
Por la desigualdad de Chebyshev (9.2) aplicada a la variable | i=1 (Xi −µ)|
y la función g(x) = x4 se obtiene, para ǫ > 0,
n
X n
X
P (| (Xi − µ)| > nǫ) ≤ E| (Xi − µ)|4 /(nǫ)4
i=1 i=1
= ( nE|X − µ|4 + 3n(n − 1)σ 4 )/(nǫ)4 .
P P
Sea el evento An = (| n1 ni=1 Xi − µ| > ǫ). Entonces ∞ n=1 P (An ) < ∞. Por
el lema de Borel-Cantelli la probabilidad de que ocurra una infinidad de
eventos An es cero, es decir, con probabilidad uno, sólo un número finito de
estos eventos ocurre. Por lo tanto con probabilidad uno, existe un número
natural n a partir del cual ningún evento An se verifica. Es decir,
n
1X
P ( lı́m | Xi − µ| ≤ ǫ ) = 1.
n→∞ n
i=1
Capı́tulo 9. Dos teoremas lı́mite 343
Como esta afirmación vale para cualquier ǫ > 0, se cumple que
n
1X
P ( lı́m Xi = µ ) = 1.
n→∞ n
i=1
Ejemplo. (El problema del mono, nuevamente). Usaremos la ley fuerte
de los grandes números para dar otra solución al problema del mono. Considere
entonces un mono que escribe caracteres al azar. Nos interesa encontrar la proba-
bilidad de que el mono eventualmente escriba las obras completas de Shakespeare,
las cuales, supondremos, tienen una longitud total de N caracteres. Nuevamente
se consideran bloques de longitud N de la siguiente forma
x1 , . . . , xN , xN +1 , . . . , x2N , . . .
| {z } | {z }
Sea Ak el evento correspondiente a que en el k-ésimo bloque el mono tenga éxito,
y sea Xk la variable aleatoria indicadora del evento Ak , es decir,
1 si Ak ocurre,
Xk =
0 si Ak no ocurre.
Se tiene entonces una sucesión de variables aleatorias X1 , X2 , . . . independientes e
idénticamente distribuidas Ber(p), con p = P (Ak ) = (1/m)N , suponiendo que el
total de caracteres disponibles es m. En particular, la media de cada una de estas
variables es E(Xk ) = p. Considere ahora la suma X1 + · · · + Xn . Si para algún
valor de n esta suma es positiva, significa que alguno de los sumandos es distinto
de cero, y por lo tanto que el mono ha tenido éxito. Pero esto es justamente lo que
garantiza la ley fuerte de los grandes números pues
n
1X
P ( lı́m Xk = p ) = 1.
n→∞ n
k=1
Es decir, con probabilidad uno la suma de esta ecuación es positiva. Esto implica
que debe existir un valor de k tal que Xk = 1, y esto a su vez significa que en
el k-ésimo bloque el mono ha tenido éxito. Más aún, para que el promedio que
aparece en esta ecuación sea positivo necesariamente la suma debe ser infinita, y
por lo tanto, deben existir una infinidad de valores de k tal que Xk = 1. Esto quiere
decir que con probabilidad uno el mono escribirá una infinidad de veces las obras
completas de Shakespeare. ◦
344 9.3. Teorema central del lı́mite
9.3. Teorema central del lı́mite
Concluimos el curso con el célebre y famoso teorema central del lı́mite. Este
resultado es de amplio uso en estadı́stica y otras ramas de aplicación de
la probabilidad, y una de sus primeras versiones lleva el nombre de A. de
Moivre y de P. S. Laplace.
Teorema de De Moivre-Laplace. Sea X1 , X2 , . . . una sucesión de
variables aleatorias independientes tal que cada una de ellas tiene dis-
tribución Bernoulli con parámetro p ∈ (0, 1). Para cualesquiera números
reales a < b,
Z b
X1 + · · · + Xn − np 1 2 /2
lı́m P ( a < p < b) = √ e−x dx.
n→∞ np(1 − p) 2π a
p este resultado establece que la variable aleatoria (X1 + · · · +
En palabras
Xn − np)/ np(1 − p) converge en distribución a una variable aleatoria nor-
mal estándar, una demostración directa puede ser encontrada en [8]. Este
teorema fue descubierto por A. de Moivre alrededor de 1733 en el caso cuan-
do las variables aleatorias tienen distribución Bernoulli con p = 1/2. Años
después P. S. Laplace demostró su validez para valores arbitrarios de p. El
teorema de de Moivre-Laplace es una caso particular del siguiente resultado
fundamental.
Teorema central del lı́mite. Sea X1 , X2 . . . una sucesión de va-
raibles aleatorias independientes e idénticamente distribuidas tales que
para cada natural n, E(Xn ) = µ y Var(Xn ) = σ 2 < ∞. Entonces
X1 + · · · + Xn − nµ d
√ −→ N(0, 1).
nσ
Capı́tulo 9. Dos teoremas lı́mite 345
Demostración. Observe que
X1 + · · · + Xn − nµ (X1 − µ)/σ + · · · + (Xn − µ)/σ
√ = √ ,
nσ n
en donde cada sumando del numerador en el lado derecho es una variable
con media cero y varianza uno. Ası́ pues, sin pérdida de generalidad, supon-
dremos que cada variable de la sucesión tiene media cero y varianza uno.
√
Considere entonces la suma Zn = (X1 + · · · + Xn )/ n. Se desea probar que
d 2 /2
Zn → N(0, 1). Para ello es suficiente demostrar que φZn (t) → e−t . Por
independencia e idéntica distribución,
√ √
φZn (t) = E( eit(X1 +···+Xn )/ n ) = ( φX (t/ n) )n ,
en donde φX (t) es la función caracterı́stica de cualquier elemento de la
sucesión, que por la expansión (8.1) adquiere la expresión, cuando t → 0,
1
φX (t) = 1 − t2 (1 + o(1)).
2
Por lo tanto,
t2
φZn (t) = ( 1 − (1 + o(1)) )n .
2n
2 /2
Haciendo n → ∞ se obtiene φZn (t) → e−t .
El teorema central del lı́mite establece entonces que para cualquier número
real x,
X1 + · · · + Xn − nµ
lı́m P ( √ ≤ x ) = P (Z ≤ x),
n→∞ nσ
en donde Z tiene distribución normal estándar. Observe que la suma X1 +
· · · + Xn tiene media nµ y varianza nσ 2 , de modo que la expresión de
arriba es una especie de estandarización de esta variable. Equivalentemente
el resultado puede enunciarse del siguiente modo:
(X1 + · · · + Xn )/n − µ d
√ −→ N(0, 1).
σ/ n
346 9.3. Teorema central del lı́mite
Este teorema fue demostrado rigurosamente por A. M. Lyapunov alrededor
de 1901. Observe que no hay ninguna hipótesis adicional sobre la distri-
bución de las variables de la sucesión, es decir, éstas puede tener cualquier
distribución, sólo requiriendo la existencia de la media y la varianza. Existen
en la literatura varias generalizaciones y extensiones de este resultado.
Capı́tulo 9. Dos teoremas lı́mite 347
9.4. Ejercicios
Desigualdad de Markov
584. Demuestre la desigualdad de Markov siguiendo los siguientes pasos:
Suponga X ≥ 0, y para ǫ > 0 defina
ǫ si X ≥ ǫ,
Xǫ =
0 si X < ǫ.
Compruebe que Xǫ ≤ X. Ahora tome esperanza de ambos lados y
calcule E(Xǫ ).
585. Use la desigualdad de Markov para demostrar que si X es una va-
riable aleatoria no negativa con esperanza cero, entonces X = 0 casi
seguramente.
586. Conv. en media ⇒ Conv. en probabilidad. Demuestre que la
convergencia en media implica la convergencia en probabilidad, usando
la desigualdad de Markov aplicada a la variable aleatoria no negativa
|Xn − X|.
Desigualdad de Chebyshev
587. Conv. en m.c. ⇒ Conv. en probabilidad. Use la desigualdad de
Chebyshev (9.2) para demostrar directamente que la convergencia en
media cuadrática implica la convergencia en probabilidad.
588. Demuestre la desigualdad de Chebyshev (9.1) usando la desigualdad
de Markov aplicada a la variable aleatoria no negativa |X − µ|.
589. Use la desigualdad de Chebyshev para demostrar que si X es una
variable aleatoria tal que E(X) = a y Var(X) = 0, entonces X es
constante casi seguramente, es decir, P (X = a) = 1.
348 9.4. Ejercicios
590. Sea X con media µ y varianza σ 2 . Use la desigualdad de Chebyshev
para estimar la probabilidad de que X tome valores entre µ − ǫσ y
µ + ǫσ para cualquier ǫ > 0 constante.
591. A partir de la desigualdad de Chebyshev extendida (9.2) demuestre la
desigualdad de Chebyshev (9.1) y la desigualdad de Markov.
592. Demuestre que P (|X| ≥ ǫ) ≤ E|X|/ǫ, para ǫ > 0,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
593. Demuestre que P (|X| ≥ ǫ) ≤ E|X|n /ǫn , para ǫ > 0 y n ∈ N,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
594. Demuestre que P (X ≥ ǫ) ≤ E(etX )/eǫt , para ǫ > 0 y t > 0,
a) usando la desigualdad de Chebyshev extendida.
b) de manera directa.
595. Sea X discreta con función de probabilidad
1/18 si x = −1, 1,
f (x) = 16/18 si x = 0,
0 otro caso.
Demuestre que el valor exacto de la probabilidad P (|X − µ| ≥ 3σ)
coincide con la estimación dada por la desigualdad de Chebyshev. Este
resultado demuestra que, sin hipótesis adicionales, la cota superior
dada por la desigualdad de Chebyshev es óptima.
596. Considere la siguiente versión de la desigualdad de Chebyshev
P (|X − µ| < ǫσ) ≥ 1 − 1/ǫ2 .
Encuentre el mı́nimo valor de ǫ > 0 de tal modo que la probabilidad
de que una variable aleatoria tome valores entre µ − ǫσ y µ + ǫσ sea
al menos 0.90.
Capı́tulo 9. Dos teoremas lı́mite 349
597. Desigualdad de Cantelli. Demuestre que si Var(X) < ∞, enton-
ces para cualquier ǫ > 0,
2 Var(X)
P (|X − E(X)| > ǫ) ≤ .
ǫ2 + Var(X)
Ley de los grandes números
598. Use la ley débil de los grandes números para demostrar que si Xn
p
tiene distribución bin(n, p), entonces n1 Xn −→ p, cuando n tiende a
infinito,
599. Ley de los grandes números en media cuadrática. Demues-
tre que si X1 , X2 , . . . son independientes con media µ y varianza σ 2 ,
entonces
n
1X m.c.
Xi −→ µ.
n
i=1
Observe que no se pide la hipótesis de idéntica distribución para las
variables aleatorias y que este resultado no es consecuencia de la ley
fuerte.
600. Sean X1 , . . . , Xn independientes con distribución N(µ, σ 2 ). El prome-
dio (X1 + · · · + Xn )/n tiene distribución N(µ, σ 2 /n) para cualquier
valor de n. ¿Contradice esto la ley de los grandes números?
601. En el ejercicio 583 se pide usar la función caracterı́stica para demos-
trar que si X1 , . . . , Xn son independientes con distribución Cauchy
estándar, entonces el promedio Sn = (X1 + · · · + Xn )/n tiene distribu-
ción Cauchy estándar, independientemente del valor de n. ¿Contradice
esto la ley de los grandes números?
602. Se lanza una moneda equilibrada 2n veces. Calcule la probabilidad de
que ambas caras caigan el mismo número de veces. ¿Qué le sucede a
esta probabilidad cuando n tiende a infinito? ¿Contradice esto la ley
de los grandes números?
350 9.4. Ejercicios
Teorema central del lı́mite
603. Use el teorema central del lı́mite para estimar la probabilidad de obte-
ner mas de 520 águilas en 1000 lanzamientos de una moneda honesta.
604. Sean X1 , X2 , . . . independientes con distribución Poisson(λ) con λ =
1. Use el teorema central del lı́mite para demostrar que
n
1 X nk 1
lı́m = .
n→∞ en k! 2
k=0
605. La probabilidad de ocurrencia de un evento en un ensayo es de 0.3.
¿Cuál es la probabilidad de que la frecuencia relativa de este evento
en 100 ensayos se encuentre entre 0.2 y 0.5?
Apéndice A
Distribuciones de probabilidad
Se presenta a continuación una lista en orden alfabético de algunas distri-
buciones de probabilidad univariadas de uso común. Como es costumbre,
la función de probabilidad o de densidad se denota por f (x), y la función
de distribución por F (x). Como en el texto, G(t) es la función generadora
de probabilidad, M (t) es la función generadora de momentos, y φ(t) es la
función caracterı́stica.
Distribución Bernoulli
X ∼ Ber(p), con p ∈ (0, 1).
f (x) = px (1 − p)1−x para x = 0, 1.
E(X) = p.
Var(X) = p(1 − p).
G(t) = 1 − p + pt.
M (t) = 1 − p + pet .
Este es el modelo más simple de variable aleatoria y corresponde a la obser-
vación de la ocurrencia o no ocurrencia de un evento. La suma de n variables
independientes Ber(p) tiene distribución bin(n, p).
351
352
Distribución beta
X ∼ beta(a, b) con a > 0, b > 0.
f (x) = xa−1 (1 − x)b−1 /B(a, b), para x ∈ (0, 1).
E(X) = a/(a + b).
Var(X) = ab/[(a + b + 1)(a + b)2 ].
Distribución binomial
X ∼ bin(n,
p) con n ∈ N y p ∈ (0, 1).
n
f (x) = px (1 − p)n−x para x = 0, 1, . . . , n.
x
E(X) = np.
Var(X) = np(1 − p).
G(t) = (1 − p + pt)n .
M (t) = [1 − p + pet ]n .
Una variable aleatoria binomial registra el número de éxitos en n ensayos
independientes Bernoulli en donde en cada ensayo la probabilidad de éxito
es p. La suma de dos variables independientes con distribución bin(n, p) y
bin(m, p) tiene distribución bin(n + m, p).
Distribución binomial negativa
X ∼ binneg(r, p) con
r ∈ N y p ∈ (0, 1).
r+x−1
f (x) = pr (1 − p)x para x = 0, 1, . . .
x
E(X) = r(1 − p)/p.
Var(X) = r(1 − p)/p2 .
G(t) = [p/(1 − t(1 − p))]r .
Apéndice A. Distribuciones de probabilidad 353
M (t) = [p/(1 − qet )]r .
Este es el modelo que se usa para contar el número de fracasos antes de
obtener el r-ésimo éxito en una sucesión de ensayos independientes Bernou-
lli, en donde en cada ensayo la probabilidad de éxito es p. La distribución
binomial negativa se reduce a la distribución geométrica cuando r = 1.
Distribución Cauchy
X ∼ Cauchy(a, b) con a > 0 y b > 0.
1
f (x) = .
bπ[1 + ((x − a)/b)2 ]
La esperanza, la varianza y cualquier momento no existen.
La función generadora de momentos no existe para t 6= 0.
φ(t) = exp(iat − b|t|).
Cuando a = 0 y b = 1 se obtiene la distribución Cauchy estándar, y coincide
con la distribución t(n) con n = 1. En este caso,
f (x) = 1/(π(1 + x2 )), para x ∈ R.
F (x) = 1/2 + (arctan x)/π, para x ∈ R.
Distribución exponencial
X ∼ exp(λ) con λ > 0.
f (x) = λe−λx , para x > 0.
F (x) = 1 − e−λx , para x > 0.
E(X) = 1/λ.
Var(X) = 1/λ2 .
M (t) = λ/(λ − t) para t < λ.
La suma de n variables independientes exp(λ) tiene distribución gama(n, λ).
354
Distribución gama
X ∼ gama(n, λ) con n > 0 y λ > 0.
(λx)n−1 −λx
f (x) = λe , para x > 0.
Γ(n)
n−1
X
F (x) = 1 − e−λx (λx)k /k!, para x > 0 y n entero.
k=0
E(X) = n/λ.
Var(X) = n/λ2 .
M (t) = [λ/(λ − t)]n , para t < λ.
Cuando n = 1 la distribución gama se reduce a la distribución exponen-
cial. Advertencia: para denotar esta distribución en algunos textos se usa el
sı́mbolo gama(λ, n), es decir, el orden de los parámetros es distinto.
Distribución geométrica
X ∼ geo(p), con p ∈ (0, 1).
f (x) = p(1 − p)x , para x = 0, 1, . . .
E(X) = (1 − p)/p.
Var(X) = (1 − p)/p2 .
G(t) = p/[1 − t(1 − p)].
M (t) = p/[1 − (1 − p)et ].
Esta variable se usa para modelar el número de fracasos antes de obtener el
primer éxito en una sucesión de ensayos independientes Bernoulli, en donde
en cada uno de ellos la probabilidad de éxito es p. La distribución geométrica
es un caso particular de la distribución binomial negativa.
Apéndice A. Distribuciones de probabilidad 355
Distribución hipergeométrica
X ∼ hipergeo(N,
K, n) con K, n∈ N y n ≤ K ≤ N .
N,
K N −K N
f (x) = / para x = 0, 1, . . . , n.
x n−x n
E(X) = nK/N .
Var(X) = n K N −K N −n
N N N −1 .
Distribución ji-cuadrada
X ∼ χ2 (n) con n > 0.
n/2
1 1
f (x) = xn/2−1 e−x/2 para x > 0.
Γ(n/2) 2
E(X) = n.
Var(X) = 2n.
M (t) = (1 − 2t)−n/2 para t < 1/2.
φ(t) = (1 − 2it)−n/2 .
Distribución log normal
X ∼ log normal(µ, σ 2 ) con µ ∈ R y σ 2 > 0.
1
f (x) = √ exp[−(ln x − µ)2 /2σ 2 ] para x > 0.
x 2πσ 2
E(X) = exp(µ + σ 2 /2).
E(X n ) = exp(nµ + n2 σ 2 /2).
Var(X) = exp(2µ + 2σ 2 ) − exp(2µ + σ 2 ).
La función generadora de momentos no existe.
356
Distribución normal
X ∼ N(µ, σ 2 ) con µ ∈ R y σ 2 > 0.
1 2 2
f (x) = √ e−(x−µ) /2σ .
2πσ 2
E(X) = µ.
Var(X) = σ 2 .
M (t) = exp (µt + σ 2 t2 /2).
φ(t) = exp (iµt − σ 2 t2 /2).
Cuando µ = 0 y σ 2 = 1 se obtiene la distribución normal estándar. La suma
o diferencia de dos variables independientes con distribución normal tiene
distribución normal.
Distribución Pareto
X ∼ Pareto(a, b) con a > 0 y b > 0.
f (x) = aba /(b + x)a+1 , para x > 0.
F (x) = 1 − [b/(b + x)]a , para x > 0.
E(X) = b/(a − 1), para a > 1.
Var(X) = ab /[(a − 1)2 (a − 2)],
2 para a > 2.
Distribución Poisson
X ∼ Poisson(λ), con λ > 0.
f (x) = e−λ λx /x! para x = 0, 1, . . .
E(X) = λ.
Var(X) = λ.
G(t) = e−λ(1−t) .
Apéndice A. Distribuciones de probabilidad 357
M (t) = exp [λ(et − 1)].
La suma de dos variables independientes con distribución Poisson(λ1 ) y
Poisson(λ2 ) tiene distribución Poisson(λ1 + λ2 ).
Distribución t
X ∼ t(n) con n > 0.
Γ((n + 1)/2)
f (x) = √ (1 + x2 /n)−(n+1)/2 .
nπ Γ(n/2)
E(X) = 0.
Var(X) = n/(n − 2) para n > 2.
M (t) no existe para t 6= 0.
φ(t) = exp(−|t|) , cuando n = 1. La expresión de φ(t) resulta complicada
para valores n ≥ 2.
Distribución uniforme discreta
X ∼ unif{x1 , . . . , xn } con n ∈ N.
f (x) = 1/n para x = x1 , . . . , xn .
E(X) = (x1 + · · · + xn )/n.
Var(X) = [(x1 − µ)2 + · · · + (xn − µ)2 ]/n.
G(t) = (tx1 + · · · + txn )/n.
M (t) = (ex1 t + · · · + exn t )/n.
Distribución uniforme continua
X ∼ unif(a, b) con a < b.
f (x) = 1/(b − a) para x ∈ (a, b).
358
F (x) = (x − a)/(b − a) para x ∈ (a, b).
E(X) = (a + b)/2.
Var(X) = (b − a)2 /12.
M (t) = (ebt − eat )/(bt − at).
Distribución Weibull
X ∼ Weibull(r, λ) con r > 0 y λ > 0.
r
f (x) = e−(λx) rλr xr−1 para x > 0.
r
F (x) = 1 − e−(λx) para x > 0.
E(X) = Γ(1 + 1/r)/λ.
Var(X) = [Γ(1 + 2/r) − Γ2 (1 + 1/r)]/λ2 .
Apéndice B
Conceptos y resultados varios
El alfabeto griego
Aα alfa Iι iota P ρ, ̺ rho
Bβ beta Kκ kapa Σ σ, ς sigma
Γγ gama Λλ lambda T τ tau
∆δ delta M µ mu Υυ upsilon
E ǫ, ε épsilon Nν nu Φ φ, ϕ phi
Zζ zeta Ξξ xi X χ ji ó chi
H η eta Oo omikron Ψψ psi
Θ θ, ϑ theta Ππ pi Ωω omega
359
360
Notación
B(R) : Conjuntos de Borel de R.
a∨b : máx{a, b}.
a∧b : mı́n{a, b}.
A⊥B : Independencia de los eventos A y B.
⌊x⌋ : Parte entera de x.
F (x+) : Lı́mite por la derecha de la función F en el punto x.
F (x−) : Lı́mite por la izquierda de la función F en el punto x.
Lema de Abel
Sea a0 , a1 , . . . una sucesión de números reales o complejos
P P∞ tal que la serie
∞ n
n=0 na es convergente. Defina la función G(t) = n=0 n t . Entonces
a
∞
X
lı́m G(t) = an .
tր1
n=0
Lı́mite superior e inferior
Sea a1 , a2 , . . . una sucesión infinita de números reales. Para cada m natural
defina
bm = ı́nf {am , am+1 , . . .},
y cm = sup {am , am+1 , . . .}.
Entonces claramente bm ≤ bm+1 , y cm ≥ cm+1 . Es decir, ambas suce-
siones son monótonas, una no decreciente y la otra no creciente, por lo
tanto son convergentes, no excluyendo con ello valores infinitos. Al valor
Apéndice B. Conceptos y resultados varios 361
b = lı́mm→∞ bm se le llama lı́mite inferior, y a c = lı́mm→∞ cm se le llama
lı́mite superior de la sucesión, y se denotan de la forma siguiente:
b = lı́m inf an ,
n→∞
y c = lı́m sup an .
n→∞
De lo anterior es inmediato ver que lı́m inf n→∞ an ≤ lı́m supn→∞ an .
Además la sucesión es convergente si, y sólo si, lı́m inf an = lı́m sup an .
n→∞ n→∞
Imagen inversa
Sean A y B dos conjuntos. Considere una función X : A → B. La imagen
inversa de un conjunto B ⊆ B es un subconjunto de A, denotado por X −1 B,
y definido como sigue: X −1 B = {a ∈ A : X(a) ∈ B}.
X −1 B B
A B
Figura B.1: Imagen inversa.
En palabras, la imagen inversa de B es aquella colección de elementos de
A tal que al aplicarles la función X toman un valor dentro del conjunto
B. Observe que X es una función puntual, es decir, lleva puntos de A en
puntos de B, mientras que X −1 es una función conjuntista, es decir, lleva
subconjuntos de B en subconjuntos de A. No debe confundirse X −1 con la
función inversa de X.
El concepto de imagen inversa es usado en este texto para definir a una
362
variable aleatoria como una función medible. La imagen inversa cumple las
siguientes propiedades:
a) X −1 B = A.
b) X −1 (B c ) = (X −1 B)c .
c) Si B1 ⊆ B2 , entonces X −1 B1 ⊆ X −1 B2 .
d) X −1 (B2 − B1 ) = X −1 B2 − X −1 B1 .
S S∞
e) X −1 ( ∞k=1 Bk ) = k=1 X
−1 B .
k
T T
f) X −1 ( ∞k=1 Bk ) =
∞
k=1 X
−1 B .
k
g) X(X −1 B) ⊆ B, la igualdad se cumple si, y sólo si, X es sobre.
h) A ⊆ X −1 (XA), la igualdad se cumple si, y sólo si, X es inyectiva.
Si se tienen dos funciones X : A → B y Y : B → C, entonces para cualquier
subconjunto C de C, se cumple (X ◦ Y )−1 C = X −1 (Y −1 C).
Función indicadora
La función indicadora de un conjunto A ⊆ Ω es la función 1A : Ω → {0, 1}
dada por
1 si ω ∈ A,
1A (ω) =
0 si ω ∈
/ A.
De este modo la función 1A toma el valor uno dentro del conjunto A, y cero
fuera de él. Es sencillo verificar que esta función resulta ser una variable
aleatoria si, y sólo si, el conjunto A es un evento. La función indicadora
cumple, entre otras, las siguientes propiedades:
Apéndice B. Conceptos y resultados varios 363
a) 1A∪B = máx{1A , 1B } = 1A + 1B − 1A · 1B .
b) 1A∩B = mı́n{1A , 1B } = 1A · 1B .
c) 1Ac = 1 − 1A .
d) 1A−B = 1A − 1A · 1B .
e) 1A△B = |1A − 1B | = |1A − 1B |2 = 1A + 1B − 2 · 1A · 1B .
f) Si A ⊆ B, entonces 1A ≤ 1B .
Esperanza condicional
Sea (Ω, F ) un espacio medible. Sean P y Q dos medidas de probabilidad.
Se dice que Q es absolutamente continua respecto de P si cada vez que
P (A) = 0, necesariamente Q(A) = 0 para cada A en F . En tal caso se
esribe Q ≪ P .
Teorema de Radon-Nikodym. Si Q ≪ P , entonces existe una variable
aleatoria integrable ξ que es única P -casi seguramente, y es tal que para
cada evento A, Z
Q(A) = ξ dP.
A
Se escribe ξ = dQ/dP y se le llama la derivada de Radon-Nikodym.
Con ayuda de este teorema es fácil demostrar la existencia y unicidad de la
esperanza condicional. Sea (Ω, F , P ) un espacio de probabilidad, sea X una
variable aleatoria integrable, y sea G ⊆ F una sub σ-álgebra. Para cada A
en G defina Z
Q(A) = X dP.
A
Puede comprobarse que Q ≪ P cuando P se restringe a la σ-álgebra G .
El teorema de Radon-Nikodym garantiza entonces la existencia y unicidad
364
P -casi segura de una variable aleatoria G -medible ξ tal que para cada A en
G, Z Z
X dP = ξ dP,
A A
A la variable ξ le hemos denotado por E(X | G ). He aqui una lista de algunas
de sus propiedades.
1. E(X | G ) es G -medible y tiene esperanza finita.
Z Z
2. E(X | G ) dP = X dP, para cualquier G ∈ G .
G G
3. E(E(X | G )) = E(X).
4. E(X | {∅, Ω} ) = E(X).
5. Si B es un evento tal que 0 < P (B) < 1, entonces
E(1A | {∅, B, B c , Ω} ) = P (A | B)1B + P (A | B c )1B c .
6. Si B1 , . . . , Bn es una partición de Ω tal que cada elemento tiene pro-
babilidad estrictamente positiva, entonces
E(X | σ{B1 , . . . , Bn }) = E(X | B1 ) · 1B1 + · · · + E(X | Bn ) · 1Bn .
7. E(αX + Y | G ) = α E(X | G ) + E(Y | G ).
8. Si X ≥ 0, entonces E(X | G ) ≥ 0.
9. Si X ≤ Y , entonces E(X | G ) ≤ E(Y | G ).
10. | E(X | G ) | ≤ E( |X| | G ).
11. E |E(X | G )| ≤ E(|X|).
12. Caso discreto. Si Y toma cada uno de los valores 0, 1, . . . con pro-
babilidad estrictamente
P∞ positiva, entonces
E(X | Y ) = n=0 E(X | Y = n) · 1(Y =n) .
Apéndice B. Conceptos y resultados varios 365
13. Caso abs. continuo. Si ω es tal que Y (ω) = y, entonces
Z ∞
E(X | Y )(ω) = x dFX|Y (x|y), cuando fY (y) 6= 0.
−∞
14. Si G1 ⊆ G2 , entonces E(E(X | G1 ) | G2 ) = E(E(X | G2 ) | G1 ) = E(X | G1 ).
15. Si X es independiente de G , entonces E(X | G ) = E(X).
16. Si X es G -medible, entonces E(X | G ) = X.
En particular, E(c | G ) = c.
17. Si G1 y G2 son independientes, entonces
E(X | σ(G1 ∪ G2 )) = E(X | G1 ) + E(X | G2 ) − E(X).
Si además X es independiente de G2 , entonces
E(X | σ(G1 ∪ G2 )) = E(X | G1 ).
m m
18. Si Xn −→ X, entonces E(Xn | G ) −→ E(X | G ).
19. Teorema de convergencia monótona. Si Xn ≥ 0 y Xn ր X
c.s., entonces E(Xn | G ) ր E(X | G ) c.s.
20. Si XY es integrable y X es G -medible, entonces E(XY | G ) = X E(Y | G ).
21. X es independiente de G si, y sólo si, E(f (X) | G ) = E(f (X)) para
cualquier función Lebesgue medible f tal que f (X) es integrable.
22. Desigualdad de Jensen. Si u es convexa y u(X) es integrable,
entonces u(E(X | G )) ≤ E(u(X) | G ).
366
Tabla de la distribución normal estándar
x
Z x
1 2 /2
Φ(x) = √ e−t dt
2π −∞
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8399
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Bibliografı́a
[1] Barry R. J. (1981) Probabilidade: Um Curso em Nı́vel Intermediário.
IMPA-CNPq.
[2] Blake I. F. (1979) An Introduction to Applied Probability. Wiley.
[3] Bobrowski A. (2005) Functional Analysis for Probability and Stochastic
Processes. Cambridge University Press.
[4] Clarke L. E. (1975) Random Variables. Longman.
[5] Cohn D. L. (1980) Measure Theory. Birkhäuser.
[6] Feller W. (1978) Introducción a la Teorı́a de las Probabilidades y sus
Aplicaciones. Vol. I y II. Limusa.
[7] Fristedt B. , Gray L. F. (1996) A Modern Approach to Probability
Theory. Birkhäuser.
[8] Garcı́a Álvarez M. A. (2005) Introducción a la Teorı́a de la Probabili-
dad. Primer Curso. Fondo de Cultura Económica.
[9] Garcı́a Álvarez M. A. (2005) Introducción a la Teorı́a de la Probabili-
dad. Segundo Curso. Fondo de Cultura Económica.
[10] Grimmett G. R., Stirzaker D. R. (1982) Probability and Random Pro-
cesses. Clarendon Press.
367
368 Bibliografı́a
[11] Grimmett G. R., Stirzaker D. R. (1986) Probability: an Introduction.
Oxford University Press.
[12] Grimmett G. R. , Stirzaker D. R. (2001) One Thousand Exercises in
Probability. Oxford University Press.
[13] Gut A. (2005) Probability: a Graduate Course. Springer.
[14] Halmos P. R. (1960) Measure Theory. Van Nostrand.
[15] Harris B. (1966) Theory of Probability. Addison–Wesley.
[16] Hoel P., Port S., Stone C. (1971) Probability Theory. Houghton Mifflin
Co.
[17] Jacod D., Protter P. (2000) Probability Essentials. Springer–Verlag.
[18] Karr A. F. (1993) Probability. Springer–Verlag.
[19] Laha R. G., Rohatgi V. K. (1979) Probability Theory. John Wiley &
Sons.
[20] Miller I., Miller M. (1999) John E. Freund’s Mathematical Statistics -
6th ed. Prentice–Hall.
[21] Mood A. M., Graybill F. A., Boes D. C. (1974) Introduction to the
Theory of Statistics. McGraw Hill.
[22] Parzen E. (1960) Modern Probability Theory and its Applications. Wi-
ley.
[23] Resnick S. I. (1999) A Probability Path. Birkhäuser.
[24] Rincón L. (2004) ¿Qué es la esperanza condicional? Miscelánea Ma-
temática. No. 37, Agosto 2004, SMM.
[25] Romano J. P. , Siegel A. F. (1986) Counterexamples in Probability and
Statistics. Chapman & Hall.
Bibliografı́a 369
[26] Rosenthal J. S. (2000) A First Look at Rigorous Probability Theory.
World Scientific.
[27] Ross S. (1976) A First Course in Probability. Prentice Hall.
[28] Villa Morales J. (2005) Introducción a la Medida e Integración. Textos
Universitarios, Ciencias Básicas. Universidad Autónoma de Aguasca-
lientes.
[29] Von Plato J. (1994) Creating Modern Probability. Cambridge University
Press.
[30] Williams D. (1991) Probability with Martingales. Cambridge University
Press.
[31] Williams D. (2001) Weighing the Odds: A Course in Probability and
Statistics. Cambridge University Press.
Índice
σ-álgebra, 3 casi segura, 279
de Borel de R, 11 casi siempre, 279
de Borel de Rn , 14 débil, 282
generada, 7 de eventos, 16
producto, 15 en distribución, 282
Álgebra, 9 en media, 281
en media cuadrática, 282
Acoplamiento, 157 en probabilidad, 281
Aditividad finita, 24 puntual, 278
Convolución, 233
Borel-Cantelli, 38
Cotas de Fréchet, 185
Cópula, 157 Covarianza, 169
Cociente Cuantil
de Mills., 138 de una v.a., 92
Coeficiente Cuartiles, 92
de correlación, 171
Desigualdad
multinomial, 178
cr , 126
Conjunto
de Bonferroni, 53
Borel medible, 11
de Boole, 24
Boreliano, 11
de Cantelli, 349
de Borel, 11
de Cauchy-Schwarz, 125
medible, 3
condicional, 219
Continuidad de la prob, 28, 30
de Chebyshev, 337
Convergencia
de Hölder, 127
casi dondequiera, 279
de Jensen, 125
370
Índice 371
de Kolmogorov, 338 multivariada, 182
de Kounias, 54 Pareto, 356
de Markov, 335 Poisson, 96, 356
condicional, 219 singular, 75, 76
de Minkowski, 127 t de Student, 257, 357
Desviación estándar, 89 trinomial, 178
Distribución uniforme
absolutamente continua, 75 bivariada, 180
arcoseno, 136 continua, 100, 357
Bernoulli, 94, 351 discreta, 93, 357
beta, 102, 352 unimodal, 93
binomial, 95, 352 univariada, 144
binomial negativa, 97, 352 Weibull, 358
bivariada, 144
Cauchy, 353 Ensayo Bernoulli, 94
continua, 74 Error
de acoplamiento, 157 absoluto medio, 127
discreta, 74 cuadrático medio, 122
exponencial, 100, 353 Espacio
exponencial doble, 134 L1 , 124
F de Snedecor, 259 L2 , 125
gama, 101, 354 de probabilidad, 1, 2
geométrica, 96, 354 completo, 27
hipergeométrica, 98, 355 medible, 3
multivariada, 179 muestral, 2
ji-cuadrada, 253, 355 Esperanza
log gama, 224 condicional, 159, 209, 363
log normal, 105, 223, 355 de un vector, 176
multimodal, 93 de una función de un vector, 165
multinomial, 178 de una función de una v.a., 87
multivariada, 144 de una v.a., 84
normal, 103, 356 Estadı́stica, 251
bivariada, 180 Estadı́sticas de orden, 262
estándar, 104 Evento, 2
casi seguro, 79
372 Índice
compuesto, 2 Igualdad
simple, 2 casi segura, 79
en distribución, 79
Fórmula Imagen inversa, 361
de inclusión y exlusión, 51 Independencia
Función de σ-álgebras, 36
beta, 103 de clases, 36
Borel medible, 61 de eventos, 34
de acumulación de prob, 67 de v.a.s, 160
de densidad, 74 de vectores, 164
de masa de probabilidad, 74 Integral de Riemann-Stieltjes, 80
de probabilidad, 74
gama, 101 Lı́mite inferior
indicadora, 362 de eventos, 15
medible, 110 de números, 360
signo, 109 Lı́mite superior
Función caracterı́stica, 311 de eventos, 15
fórmula de inversión, 318, 321 de números, 360
teorema de continuidad, 322 lema de Abel, 360
teorema de unicidad, 321 Ley de los grandes números, 340
Función de densidad, 75 débil, 340
condicional, 158 en media cuadrática, 349
conjunta, 152 fuerte, 342
marginal, 156
Función de distribución, 67 Matriz
condicional, 159 de correlación, 177
conjunta, 144 de covarianzas, 176
marginal, 155 Media, 84
Función de probabilidad muestral, 252
acumulada, 67 Mediana
conjunta, 149 de una v.a., 92
Función generadora muestral, 275
de momentos, 305 Medibilidad, 58
de momentos factoriales, 304 Medida de probabilidad, 2, 20
de probabilidad, 299 inducida, 59
Índice 373
inducida por una v.a., 110 esperado, 84
Moda medio, 84
de una v.a., 93 promedio, 84
Momentos, 91 Variable aleatoria, 57
absolutos, 91 continua, 74, 75
centrales, 91 discreta, 74
centrales absolutos, 91 mixta, 76
factoriales, 91 singular, 75, 76
Muestra aleatoria, 251 Varianza
condicional, 216
Paradoja de un vector, 176
de San Petersburgo, 117 de una v.a., 89
Probabilidad muestral, 252
axiomática, 20 Vector aleatorio, 141
clásica, 21 continuo, 143
frecuentista, 341 discreto, 143
geométrica, 22
Problema de los momentos, 91
Rango
de una m.a., 266
Regla del producto, 53
Semiálgebra, 10
Teorema
central del lı́mite, 344
de Bernoulli, 340
de cambio de variable, 222, 225,
227
de convergencia dominada, 293
de convergencia monótona, 291
de de Moivre-Laplace, 344
de Poisson, 131
Valor