0% encontró este documento útil (0 votos)

33 vistas96 páginas

Probabilidad Clases

El documento es un material de referencia sobre clases de probabilidad, estructurado en múltiples secciones que abordan desde conceptos básicos hasta temas avanzados como procesos estocásticos y variables aleatorias. Incluye antecedentes históricos, ejemplos prácticos, y fórmulas relevantes, así como un análisis combinatorio y simulaciones. Está diseñado para estudiantes de ingeniería y proporciona un marco completo para entender la probabilidad en diversas aplicaciones.

Cargado por

Paparulo Momono

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

33 vistas96 páginas

Probabilidad Clases

Cargado por

Paparulo Momono

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Preliminar - Clases Probabilidad - 2º C 2023

Ing. Ignacio Bello

rev11b - julio 2024

Índice
1. Consideraciones previas 5
1.1. *Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Sobre los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2. Repaso mı́nimo y ejemplo disparador 7

2.1. Fórmulas para tener a mano . . . . . . . . . . . . . . . . . . . . . 7
2.2. Integrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Notación - Indicadora . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Ejemplos disparadores . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1. Experimento en clase . . . . . . . . . . . . . . . . . . . . . 8
2.4.2. Ejemplos de experimentos de distinta naturaleza . . . . . 8

3. Grundbegriffe 9
3.1. Espacio de probabilidad - Axiomas K. . . . . . . . . . . . . . . . 9
3.2. *Relación axiomas K - frecuencia relativa . . . . . . . . . . . . . 11
3.3. Interludio: álgebra de eventos . . . . . . . . . . . . . . . . . . . . 11
3.4. Corolarios, teoremas, propiedades... . . . . . . . . . . . . . . . . . 13
3.5. Espacios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5.1. Espacios discretos (finitos o numerables) . . . . . . . . . . 15
3.5.2. Equiprobabilidad - Fórmula de Laplace . . . . . . . . . . 16
3.5.3. Espacios numerables . . . . . . . . . . . . . . . . . . . . . 17
3.6. Introducción a espacios continuos . . . . . . . . . . . . . . . . . . 18

4. Independencia y probabilidad condicional 20

4.1. Independencia estocástica . . . . . . . . . . . . . . . . . . . . . . 20
4.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . 22
4.3. Probabilidad total, Bayes . . . . . . . . . . . . . . . . . . . . . . 23
4.4. Independencia condicional . . . . . . . . . . . . . . . . . . . . . . 25

5. Bonustrack: Análisis combinatorio 26

5.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2. Mecánica estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2.1. Estadı́stica de Maxwell-Boltzmann . . . . . . . . . . . . . 28
5.2.2. Modelo equivalente: Maxwell-Boltzmann . . . . . . . . . . 28
5.2.3. Estadı́stica de Bose-Einstein . . . . . . . . . . . . . . . . . 28
5.2.4. Modelo equivalente: Bose-Einstein . . . . . . . . . . . . . 28

1
5.2.5. *Estadı́stica de Fermi-Dirac . . . . . . . . . . . . . . . . . 29
5.2.6. Comparación . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6. Variables aleatorias (unidimensionales) 32

6.1. Definición de V.A., distribución . . . . . . . . . . . . . . . . . . . 32
6.2. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . 32
6.3. Clasificación, funciones de probabilidad y de densidad . . . . . . 33
6.3.1. Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3.2. Continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.4. Intensidad de fallas, Cuantiles . . . . . . . . . . . . . . . . . . . . 36
6.5. Variables aleatorias famosas . . . . . . . . . . . . . . . . . . . . . 37
6.6. Variables truncadas (o condicionadas) . . . . . . . . . . . . . . . 37

7. Simulación 39
7.1. Definiciones y teoremas . . . . . . . . . . . . . . . . . . . . . . . 39
7.2. Números aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7.3. Simulación de VA discretas . . . . . . . . . . . . . . . . . . . . . 40
7.4. Simulación de VA continuas y mixtas . . . . . . . . . . . . . . . . 42

8. Funciones para análisis de datos 44

9. Variables aleatorias n-dimensionales 48

9.1. Definiciones, distribución conjunta . . . . . . . . . . . . . . . . . 48
9.2. Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
9.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

[Link] 52
10.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
10.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.3. Covarianza, ı́ndice de correlación . . . . . . . . . . . . . . . . . . 54
10.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 56
10.5. Desigualdades, Ley débil de grandes números . . . . . . . . . . . 57

[Link] de V.A. 59
11.1. Definiciones y aclaraciones previas . . . . . . . . . . . . . . . . . 59
11.2. Teoremas para transformaciones de V.A. . . . . . . . . . . . . . . 59

[Link] 65
12.1. Variables condicionales . . . . . . . . . . . . . . . . . . . . . . . . 65
12.2. Modelos discreto continuos . . . . . . . . . . . . . . . . . . . . . 66
12.3. Momentos y función de regresión . . . . . . . . . . . . . . . . . . 67

[Link] condicional 70
13.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
13.2. Iterpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 72
13.3. Ejemplos varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

2
[Link] Bernoulli 75
14.1. Procesos y proceso Bernoulli . . . . . . . . . . . . . . . . . . . . 75
14.2. Distribuciones asociadas . . . . . . . . . . . . . . . . . . . . . . . 75
14.3. Proceso Bernoulli generalizado . . . . . . . . . . . . . . . . . . . 77
14.4. Miscelánea tóxica . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
14.4.1. Coleccionista . . . . . . . . . . . . . . . . . . . . . . . . . 78
14.4.2. Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
14.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

[Link] de Poisson 83
15.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . 83
15.2. Proceso puntual de Poisson . . . . . . . . . . . . . . . . . . . . . 84
15.3. Pérdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . 86
15.4. *Waiting time paradoxes . . . . . . . . . . . . . . . . . . . . . . . 88
15.5. Más propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
15.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

[Link] normal y TCL 92

16.1. La variable normal univariada . . . . . . . . . . . . . . . . . . . . 92
16.2. Teoremas lı́mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
16.3. La variable normal bivariada . . . . . . . . . . . . . . . . . . . . 94

3
Burocracia y otras hierbas
Nota aclaratoria
Estas notas se escribieron para uso personal, como ayuda para dar la cla-
se, y están en continua evolución. Le faltan consistencia de notación, gráficos,
ejemplos. No se recomiendan como material de base para aprender la materia.
No tienen intención de reemplazar la clase ni mucho menos un buen libro
(como los que se sugieren en la bibliografı́a), el objetivo es simplemente ahorrarle
al que lo considere conveniente la toma de apuntes; y facilitarle un poco la
cursada a aquellos con problemas para asistir.

Asistencia
Se tomará lista todas las clases solo con fines estadı́sticos. No se dejará
libre a ningún alumno.
Los condicionales y cambios de curso deben avisar en el curso al que van
a asistir por cortesı́a, y al momento de rendir hacerlo en el curso que se
anotaron originalmente.

Evaluación
Se toma un parcial de 5 ejercicios, con al menos 3 bien se aprueba. El
parcial tiene 2 instancias de recuperación. Se agregan las fechas diferidas
que hagan falta para quienes presenten certificado de examen de otra
materia, certificado de trabajo o certificado médico.

Quien aprueba el parcial (y el trabajas prácticos si hubiere) aprueba la

cursada y tiene derecho a rendir coloquio. El coloquio consta de 5 ejerci-
cios, se aprueba con al menos 3 ejercicios bien y al menos 1 de los últimos
2 ejercicios (los que corresponden a temas de estadı́stica) bien.

Codificación de estas notas

Los siguientes recuadros y colores avisan —- EXPERIMENTAL, SE ESTÁ
IMPLEMENTANDO EN 1ºC DE 2022 —-
Cosas en rojo no las damos en clases y no es necesario estudiarlas. Suele re-
forzarse con un asterisco * al principio del tı́tulo, subtı́tulo, nombre del teorema,
etc. Saltear o leer a gusto.
Cosas en violeta son para Probabilidad y Estadı́stica B 61.09 / 81.06. En
Probabilidad y Estadı́stica A 61.06 / 81.03, con menor tiempo de cursada, no
las daremos ni las evaluaremos.

Recuadros en verde ejercicios de la guı́a (PyE A curso 5, PyE B curso 22)

que puede hacer con los visto hasta el momento. Válidos para guı́a Primer
Cuatrimestre del 2021, Versión 1.4.

4
1. Consideraciones previas
1.1. *Antecedentes históricos
Armar lı́nea de tiempo central con los probabilistas, en paralelo rigor y teorı́a
de medida, unirlas en Kolmogorov.
Fuentes: Grimmet-Stirzaker, Jacovkis, biografı́as de Wikipedia

300 A.C. Euclides, Elementos

250 A.C. Arquı́medes, El método de los teoremas mecánicos

1550 (pero publicado en 1663) Gerolamo Cardano (Ita) (el de ecuación cúbica),
Liber de ludo aleae (sobre los juegos de azar)
1654 Blaise Pacal (Fra) y Pierre de Fermat (Fra) discuten por carta el problema
de los puntos, luego en 1657 Huygens (Hol) publica De ratiociniis in ludo
aleae (Razonamientos en los juegos de azar). Introducen el concepto de
valor esperado
1713 de Jacob Bernoulli (Sui) (el que descubrió e, muerto en 1705) publican (un
sobrino) Ars conjectandi (Arte de la conjetura). Fruto de leer Huygens y
discutir con Leibniz (Ale) y con su hermano Johann, incluye el Teorema
de Bernoulli: la primera ley de los grandes números

1718 Abraham de Moivre (Fra) publica The Doctrine of Chances: a method

of calculating the probabilities of events in play. En la reedición de 1756
aparece la primera versión del TCL.
1812 Pierre-Simon Laplace (Fra) publica Théorie analytique des probabilités
prueba también el TCL

18xx Por los mismos años: Leonhard Euler (Ale), Carl Friedrich Gauss (Ale),
Joseph-Louis de Lagrange (Ita), Adrien-Marie Legendre (Fra), Siméon De-
nis Poisson (Fra)
1919 Richard von Mises (Aus-Hun) introduce el espacio muestral y define la
probabilidad como la frecuencia relativa.
18xx Rigor matemático Durante el [Link] comienza a formalizarse con rigor
la matemática, comenzando por los trabajos de euclides. Augustin-Louis
Cauchy (Fra), Bernhard Riemann (Ale), Karl Weierstrass (Ale) (no tuvo
tı́tulo universitario)

19xx Teorı́a de medida A principios del [Link] la desarrollan Émile Borel (Fra),
Henri Lebesgue (Fra), Johann Radon (Aus), Maurice René Fréchet (Fra)
1933 Andrey Kolmogorov (Rus), Grundbegriffe der Wahrscheinlichkeitsrech-
nung

5
1.2. Bibliografı́a
La historia es como cosa sagrada, porque ha de ser verdadera, y
donde está la verdad, está Dios, en cuanto a verdad; pero, no
obstante esto, hay algunos que ası́ componen y arrojan libros de sı́
como si fuesen buñuelos
—No hay libro tan malo —dijo el bachiller—, que no tenga algo
bueno.
—No hay duda en eso —replicó don Quijote—, pero muchas veces
acontece que los que tenı́an méritamente granjeada y alcanzada
gran fama por sus escritos, en dándolos a la estampa la perdieron
del todo o la menoscabaron en algo.

Miguel de Cervantes Saavedra

Se recomienda intentar seguir las clases con los apuntes, vamos a dar todo
lo necesario para tener una buena base teórica y poder hacer los ejercicios.
Si hace falta, consultar los contenidos con los Borradores de Grynberg o el
Maronna. El Maronna es más conciso, es un libro publicado (menos errores),
pero en algunos temas no presenta todo lo que damos en el curso y en algunas
cosas puntuales usa otra notación. Los borradores son borradores, pero tienen
la ventaja de cubrir todos los temas del curso y casi en el mismo orden y estilo
que seguirán las clases.
Los dos textos mencionados y el Grinstead-Snell son de distribución libre y
gratuita.

Para el curso
Ambos textos son de distribución libre y gratuita. El de Grynberg se reco-
mienda solo para la parte de probabilidad (guı́as 1 a 8).
Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], 2013
Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995
Garcı́a, J. M. Apuntes de esstadı́stica. Buenos Aires: [digital], 2019

Otros
El de Snell-Grinstead es de distribución libre y gratuita. El de Jacovkis lo
publica Eudeba, es barato. Los de Feller creo que están agotados.
(El clásico t.I): Feller, W. An Introduction to Probability Theory and Its
Applications, Vol. I 2da ed. New York: John Wiley & Sons, 1957.
(El clásico [Link]): Feller, W. An Introduction to Probability Theory and
Its Applications, Vol. II 2da ed. New York: John Wiley & Sons, 1971.
(Muy interesante, lleno de simulaciones y gráficos): Grinstead,
C., Snell, J. Grinstead and Snell’s Introduction to Probability. 1ra. ed.
[digital]:[digital] 2006.
(Para profundizar): Grimmet, G., Stirzaker, D. Probability and Random
Processes. 3ra. ed. Gran Bretaña: Oxford University Press, 2001.

6
(Para formalizar duro): Billingsley, P. Probability and Measure. 3ra.
ed. Estados Unidos: John Wiley & Sons, 1995.
(De difusión): Jacovkis, P. Azar, Ciencia y Sociedad. 1ra. ed. Buenos
Aires: Eudeba, 2012

1.3. Sobre los ejercicios

Leer atentamente los enunciados
Traducir con cuidado del lenguaje coloquial al formal
Siempre tener la teorı́a (apuntes o libro) a mano, y se sugiere que solo la
teorı́a (no otros ejercicios). Al usar un teorema revisar las hipótesis para
ver si corresponde la aplicación.
Se sugiere, para cada tema, primero rehacer o repasar los ejercicios dados
en clase. Luego hacer la guı́a en orden; de no tener tiempo o sentir que los
ejercicios salen muy fácil hacer so lo los ejercicios STOP. Si ya hizo toda
la guı́a y siente que necesita más práctica haga 2 o 3 exámenes de fechas
previas.

2. Repaso mı́nimo y ejemplo disparador

2.1. Fórmulas para tener a mano
Sumatoria y serie Geométrica:
n ∞ ∞
X
i 1 − rn+1 X
i 1 X rk
r = r = ri = |r| < 1
i=0
1−r i=0
1 − r 1−r
i=k

Número e como distintos lı́mites (expresión de Bernoulli y serie de Taylor):

n ∞
1 X 1
e = lı́m 1 + e=
n→∞ n i=0
i!

Series para funciones exponencial e hiperbólicas:

∞ ∞ ∞
X xi X x2i X x2i+1
ex = cosh(x) = sinh(x) =
i=0
i! i=0
(2i)! i=0
(2i + 1)!

Sumatoria de primeros n naturales:

n
X n(n + 1)
i=
i=0
2

Fórmula de Stirling:
√ n n
n! ∼ 2πn cuando n grande
e
La fórmula de Stirling la usaremos solo para demostraciones. Es una apro-
ximación asintótica, la relación entre ambas lados del ∼ tiende a 1 cuando
n tiende a infinito.

7
2.2. Integrales
Repasar integrales en R2 y esas cosas.

2.3. Notación - Indicadora

Definición 2.1 (Función indicadora). Sea S ⊂ R, definimos

1 x∈S
1 {x ∈ S} =
0 x∈ /S

2.4. Ejemplos disparadores

2.4.1. Experimento en clase
Realizar en clase con los alumnos y completar. Cada uno debe lanzar su
moneda hasta observar por primera vez una cara.

n: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cara
Ceca

2.4.2. Ejemplos de experimentos de distinta naturaleza

Dar ejemplos de experimentos (moneda una vez, moneda hasta primera cara,
el [0, 1)). Concepto de experimento conceptual y espacio muestral Ω (Feller [3],
tı́tulo I.3), concepto de “evento elemental” ω. Idea de probabilidad como medida
o peso relativo P(ωi ), necesidad de σ-álgebra y “eventos conpuestos” para definir
P : A → R.

Tirar la moneda
Elegir un número
Tirar 1 vez la hasta observar la
en [0, 1) “al azar”,
moneda, registrar primera cara,
registrar el número
cara o ceca registrar cantidad
elegido
de lanzamientos

Resultados posibles

Preguntas

Probabilidades

8
3. Grundbegriffe
Die Wahrscheinlichkeitstheorie als mathematische Disziplin soll und
kann genau in demselben Sinne axiomatisiert werden wie die
Geometrie oder die Algebra.

Andrey Kolmogorov

3.1. Espacio de probabilidad - Axiomas K.

Definición 3.1 (Espacio muestral). Llamaremos espacio muestral a un conjun-
to no vacı́o Ω. A sus elementos ω ∈ Ω los llamaremos eventos elementales. Nota:
algunos autores llaman al espacio muestral S (por sample space). Kolmogorov
lo llamó E en sus Grundbegriffe.

Definición 3.2 (σ-álgebra). Una familia A de subconjuntos de Ω es una σ-

álgebra (o σ-field, ver Grimmet [5], subtı́tulo 1.2 definición 5) si contiene a Ω y
es cerrada por complementos y por uniones finitas o numerables. Formalmente,
debe cumplir:
(a) Ω ∈ A
(b) A ∈ A ⇒ Ac ∈ A

(c) A1 , A2 ∈ A ⇒ A1 ∪ A2 ∈ A
S∞
(d) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo es necesario exigir (d) si Ω tiene infinitos elementos)
Teorema 3.3 (Sobre las σ-álgebra). Ası́ definidas, se demuestra que son cerra-
das por intersecciones (finitas o numerables)
(e) A, B ∈ A ⇒ A ∩ B ∈ A
T∞
(f) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo tiene gracia la propiedad (f) si Ω tiene infinitos elementos)

Ejemplo 3.4 (σ-Álgebras - conceptual). Algunos ejemplos sencillos

La σ-álgebra trivial para todo Ω es A = {∅, Ω}
Si agregamos un evento A: A = {∅, A, Ac , Ω}
y agregamos otro evento B: A = {∅, A, Ac , B, B c , A ∪ B, A ∪ B c , Ac ∪
B, Ac ∪ B c , (A ∪ B)c , (A ∪ B c )c , (Ac ∪ B)c , (Ac ∪ B c )c , Ω} –revisar–
Si modelamos el lanzamiento de un dado y tomamos como eventos elemen-
tales a los seis posibles resultados, |Ω| = 6, la mayor álgebra que podemos
armar contendrá al vacı́o (1), a los eventos elementales (6), a todos los pa-
res posibles (15), a todas la ternas (20), las cuaternas (15), los quintetos
(6) y el mismo ómega (1): en total 64 subconjuntos.

9
Ejemplo 3.5 (σ-Álgebras - práctico). En la libreta de Ignacio todas las notas
son 2, 4 o 5. Realizamos el experimento: se elige una materia y le preguntamos
qué nota sacó. Indique los posibles resultados y construya una σ-álgebra lo más
chica posible, una que sirva para distinguir si aprobó, y por último una lo más
grande posible.
Solución: Para resolver primero definimos el espacio muestral Ω = {2, 4, 5}.
El álgebra más pequeña posible siempre es la que tiene a vacı́o y al propio
espacio muestral
A1 = {∅, {2, 4, 5}}
Esa σ-álgebra no nos sirve para responder ninguna pregunta, si queremos saber
si aprobó debemos incluir el subconjunto {4, 5}, y si incluimos ese subconjunto
debemos también incluir su complemento y luego las posibles uniones que apa-
rezcan para satisfacer los requerimientos (a) hasta (c) de la definición (a (d) no
le damos bola porque tenemos Ω finito). Nos queda:

A2 = {∅, {2, 4, 5}, {4, 5}, {2}}

Si por último queremos poder saber la nota exacta que sacó, debemos agregar
el 4 y el 5 sueltos (pero como subconjuntos), y sus complementos y uniones.
Queda (reordenando términos):

A3 = {∅, {2}, {4}, {5}, {4, 5}, {2, 5}, {2, 4}, {2, 4, 5}}

Notar que A3 tiene 8 subconjuntos, y que es la σ-álgebra más grande que po-
demos formar con el Ω dado.

Nota 3.6 (Sobre σ-álgebras). Podemos pensar a la σ-álgebra como una familia
de subconjuntos de Ω con buenas propiedades de cierre.
A los subconjuntos de Ω que estén en la σ-álgebra, A ∈ A, los llamaremos
eventos aleatorios o simplemente eventos.
Convención 3.7 (Partes de Ω). En el curso usaremos cuando no se aclare en
el ejercicio la σ-álgebra lo más grande posible. A estará compuesta por todos
los subconjuntos que existan de Ω, con sus uniones e intersecciones (finitas
o numerables) y sus complementos; incluyendo al subconjunto vacı́o ∅ y a Ω
mismo. Usaremos la notación 2Ω y el nombre partes de Omega para referirnos
a esa σ-álgebra. (ver Grimmet [5] power set, subtı́tulo 1.2 ejemplo 8).
Si Ω es un conjunto finito vale que |2Ω | = 2|Ω| .
Definición 3.8 (Medida de probabilidad). Una medida de probabilidad P sobre
(Ω, A) es una función P : A → R que satisface los siguientes axiomas (axiomas
de Kolmogorov):
1. Para cada A ∈ A se cumple P(A) ≥ 0
2. P(Ω) = 1

3. Aditividad: Si los eventos A y B no tienen elementos en común (son dis-

juntos, A ∩ B = ∅), se cumple P(A ∪ B) = P(A) + P(B)

10
4. Continuidad: Para cada sucesión decreciente de eventos tal que al inter-
sectarlos todos obtenemos el conjunto vacı́o
∞
\
A1 ⊃ A2 ⊃ A3 ⊃ . . . , Ai = ∅
i=1

se cumple que el lı́mite de la probabilidad es cero

lı́m P(An ) = 0
n→∞

Definición 3.9 (Espacio de probabilidad). Un espacio de probabilidad es una

terna (Ω, A, P) formada por un conjunto no vacı́o Ω llamado espacio muestral,
una σ-álgebra A de subconjuntos de Ω a los que llamamos eventos aleatorios, y
una medida P que satisface los axiomas de Kolmogorov.
Nota 3.10 (Nota histórica). : Kolmogorov publica en sus Grundbegriffe 5 axio-
mas, los primeros 2 definen la sigma-álgebra F sobre el espacio muestral E, y los
3 axiomas siguientes son los que enunciamos 1 a 3. Luego en el segundo capı́tulo
de la publicación extiende la teorı́a a espacios infinitos con el sexto axioma de
continuidad.
Nota 3.11 (Sobre el axioma de continuidad). Si la cantidad de eventos ele-
mentales ω ∈ Ω es finita, el 4to axioma no es necesario (se vuelve redundante,
se puede demostrar a partir de los primeros tres). El axioma de continuidad
es esencial para espacios muestrales infinitos. Su redacción es complicada, pero
veremos algunos teoremas que quizás sean más claros.

3.2. *Relación axiomas K - frecuencia relativa

No se da en clase. Los axiomas 1 a 3 atrapan el concepto de frecuencia
relativa. Notar que si se realizan una cantidad fija n experimentos, se llama
N (A) a la cantidad de observaciones del evento A, y se define P(A) := N (A)/n,
entonces P cumple los primeros tres axiomas.
En sus Fundaciones, Kolmogorov dedica un par de páginas a deducir empı́ri-
camente los axiomas. Una traducción al castellano se encuentra en Grynberg [1],
Espacios de Probabilidad, sección 1.2.

3.3. Interludio: álgebra de eventos

En clase sólo se mencionarán las leyes de De Morgan, el resto se supone que
los alumnos ya lo saben. Por si acaso se sube al campus un hojita con todas las
definiciones y teoremas.
Los eventos aleatorios A ∈ A son subconjuntos de Ω, vale el álgebra de
subconjuntos. En la definición y teorema siguientes, usaremos A, B, C, Ai ⊂ Ω
eventos.
Definición 3.12 (Definiciones varias). Se definen:
Unión: A ∪ B := {ω ∈ Ω : ω ∈ A ∨ ω ∈ B}
Intersección: A ∩ B := {ω ∈ Ω : ω ∈ A ∧ ω ∈ B}

11
Complemento: Ac = A := {ω ∈ Ω : ω ∈
/ A}
Disjuntos (n): Diremos Ai disjuntos si Ai ∩ Aj = ∅ ∀i ̸= j

Disjuntos (2): Diremos A, B disjuntos si A ∩ B = ∅

Sustracción: A \ B := A ∩ B c = {ω ∈ Ω : ω ∈ A ∧ ω ∈
/ B}
[n]
Partición: Si Ai disjuntos y Ui=1 Ai = Ω diremos que {Ai }i=1...[n] es una
partición de Ω.
Teorema 3.13 (Propiedades varias). Demostraciones a cargo del lector. Recor-
dar que dos conjuntos son iguales si todo evento del primero está necesariamente
en el segundo y vice versa.
Conmutativa 1: A ∪ B = B ∪ A

Conmutativa 2: A ∩ B = B ∩ A
Asociativa 1: (A ∪ B) ∪ C = A ∪ (B ∪ C)
Asociativa 2: (A ∩ B) ∩ C = A ∩ (B ∩ C)

Distributiva 1: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributiva 2: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Identidad 1: A ∪ ∅ = A
Identidad 2: A ∩ Ω = A

Complemento 1: A ∪ Ac = Ω (unión disjunta)

Complemento 2: A ∩ Ac = ∅
Idempotencia 1: A ∪ A = A

Idempotencia 2: A ∩ A = A
Dominación 1: A ∪ Ω = Ω
Dominación 2: A ∩ ∅ = ∅
Absorción 1: A ∪ (A ∩ B) = A

Absorción 2: A ∩ (A ∪ B) = A
Inters. como diferencia: A ∩ B = A \ (A \ B)
De Morgan 1: (A ∪ B)c = Ac ∩ B c

De Morgan 2: (A ∩ B)c = Ac ∪ B c
Doble complemento: (Ac )c = A
Complemento Omega: Ωc = ∅
Complemento Vacı́o: ∅c = Ω

12
[n]
Evento en partes: Si {Ai } es una partición, B = ∪i=1 (B ∩ Ai ) (unión
disjunta)
Antisimetrı́a: A ⊂ B ∧ B ⊂ A ⇔ A = B

Unicidad: A ∪ B = Ω ∧ A ∩ B = ∅ ⇔ Ac = B
Nota 3.14 (Diagramas de Venn). Los diagramas de Venn no son una demos-
tración (ver Arquı́medes, El Método, preámbulo dirigido a Eratóstenes). Sin em-
bargo, resultan muy prácticos para recordar y entender los teoremas del álgebra
de eventos, y en el curso van como piña.

Convención 3.15 (Sobre incluido o incluye). Se usa aquı́ y en el pizarrón el

sı́mbolo ⊂ como incluido o igual. e.g. A ⊂ A es verdadero y A ⊃ A es verdadero
también.

3.4. Corolarios, teoremas, propiedades...

Teorema 3.16 (Catarata de teoremas). Se demuestra a partir de los axiomas:
1. P(Ac ) = 1 − P(A)
2. P(∅) = 0
Aclaración 1: P(A) = 0 ⇏ A = ∅, pueden existir eventos con probabilidad
0 que no son vacı́o
Aclaración 2: P(A) = 0 ⇏ “A nunca ocurre”, pueden existir eventos con
probabilidad 0 que excepcionalmente ocurren
3. Aditividad: Si los eventos . , An son disjuntos dos a dos (Ai ∩Aj =
SnA1 , A2 , . . P n
∅ si i ̸= j) entonces P ( i=1 Ai ) = i=1 P(Ai )
4. Si A ⊂ B entonces P(B) = P(A) + P(B \ A)
5. Unión (2): P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
6. Unión (3...): P(A∪B ∪C) = P(A)+P(B)+P(C)−P(A∩B)−P(B ∩C)−
P(C ∩ A) + P(A ∩ B ∩ C). Generalizar para más eventos, se va sumando
y restando alternativamente según (principio de inclusión-exclusión).
T∞
7. Si A1 ⊃ A2 ⊃ · · · y A = n=1 An , entonces P(A) = lı́mn→∞ P(An )
S∞
8. Si A1 ⊂ A2 ⊂ · · · y A = n=1 An , entonces P(A) = lı́mn→∞ P(An )

9. σ-aditividad. Si los eventos

S∞ A1 , A2P, . . . son disjuntos dos a dos (Ai ∩Aj = ∅
∞
si i ̸= j) entonces P ( i=1 Ai ) = i=1 P(Ai ).
Nota 3.17 (Alta nota sobre la σ-aditividad). : El teorema de σ-aditividad es
intercambiable por el axioma 4 de continuidad. Se puede pensar como una ex-
tensión del axioma 2 de aditividad, ahora podemos unir una cantidad infinita
numerable de eventos disjuntos, y su probabilidad será la serie de las probabi-
lidades de cada evento.
Demostración (las que faltan a cargo del alumno, están todas en Grynberg
[1], Espacios de probabilidad )

13
1. 1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ) pasar restando y se demuestra
el teorema (notar que la unión de A y Ac es unión disjunta, por eso vale
sumar las probabilidades). □

2. El vacı́o es complemento de Ω, aplicar inciso el anterior y listo □

3. Alumnos: Por inducción extender el axioma V.
4. (Hacer gráficos de Venn, se entiende mucho mejor para seguir el desarro-
llo.) Como A ⊂ B se cumple

A=A∩B

Además
B =A∪B\A
y la unión es disjunta. Aplicando el axioma de aditividad:

P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) □

5. Podemos expresar la unión de A y B como la unión disjunta:

A ∪ B = A ∪ (B \ (A ∩ B))

luego aplicando axiomas y el teorema anterior (notar que (A ∩ B) ⊂ B):

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) □

6. Alumnos: Por inducción del anterior, notar que A ∪ B ∪ C = (A ∪ B) ∪ C.

7. Ver Grynberg [1] Espacios de probabilidad Teorema 1.8. Ver Grimmet [5]
subtı́tulo 1.3 lemma 5.

8. Ver Grynberg [1] Espacios de probabilidad Teorema 1.8. Ver Grimmet [5]
subtı́tulo 1.3 lemma 5.
S
9. Definimos la sucesión Rn := m>n Am , n ≥T1. La sucesión es decreciente
∞
(evidente por construcción R1 ⊃ R2 . . .) y n=1 Rn = ∅ (pues los Ai son
disjuntos dos a dos), por lo que se puede aplicar el último axioma:

lı́m P(Rn ) = 0
n→∞

Dividimos la unión infinita en dos conjuntos disjuntos y aplicamos el teo-

rema de aditividad:
∞
! n
[ X
P Ai = P(Ai ) + P(Rn )
i=1 i=1

Tomando lı́mite n → ∞ se anula el segundo término y queda la serie. □

14
3.5. Espacios discretos
3.5.1. Espacios discretos (finitos o numerables)

P (Función de probabilidad puntual). Sea p una función Ω →

Definición 3.18
[0, 1] tal que ω∈Ω p(ω) = 1 diremos que p es una función de probabilidad
puntual (o función de probabilidad de masa, o fpp, o pmf en inglés).
Teorema 3.19 (Construcción de espacios de probabilidad discretos). Todos los
espacios de probabilidad discretos (finitos o numerables) los podemos construir
sobre una función de probabilidad puntual p de la siguiente manera:
X
P(A) = p(ω) ∀A ∈ A
ω∈A

Demostració[Link] un lado es muy sencilla, basta con probar que que la defini-
ción P(A) := ω∈A p(ω) cumple con los 4 axiomas. Para el otro lado (justificar
el Todos que encabeza el enunciado) no se dará demostración, creo que la da
Grynberg en sus materias de posgrado como un teorema de extensión.
Nota 3.20 (Sobre la función de probabilidad puntual). A la hora de generar un
modelo, construir una medida que vaya de la σ-álgebra al [0, 1] y satisfaga los
axiomas no es sencillo. Pero cuando el espacio muestral tiene una cantidad de
elementos finita (o infinita numerable), la tarea se simplifica a asignarle un peso
(o masa) a los eventos elementales de Ω mediante la función de probabilidad
puntual p. Simplemente debemos tener cuidado que la suma total cierre a 1.
Luego a cualquier evento A ∈ A se le asigna como probabilidad la suma de las
probabilidades puntuales de sus elementos. Lo podemos interpretar fı́sicamente:
la masa de un cuerpo (evento A) es la suma de la masa de sus átomos (eventos
elementales ω)
Notar la diferencia importante entre la función de probabilidad puntual (p
minúscula) y la medida de probabilidad (P mayúscula): p se aplica a elementos
ω de Ω; P aplica a eventos A de la σ-álgebra A.
Ejemplo 3.21 (Lanzamiento de una moneda). Lanzamos una moneda una vez,
llamamos A: salió cara, E: salió ceca, tenemos Ω = {A, E}, A = {∅, {A}, {E}, Ω}.
Como A y E son complementarios, podemos asignar

p(A) = r p(E) = 1 − r 0≤r≤1

Luego, sumando las probabilidades puntuales

P({A}) = r P({E}) = 1 − r P(∅) = 0 P(Ω) = 1

obtenemos la medida de probabilidad.

Ejemplo 3.22 (Lanzamiento de un dado cargado). Lanzamos un dado una vez,
llamamos i: salió el número i, el espacio muestral serán los números del 1 al 6:
Ω = {1, 2 . . . 6}. Se define la función de probabilidad puntual sobre los eventos
elementales: p(i) = i/21. Demostrar que la función de probabilidad puntual está
bien definida y calcular:
(a) Probabilidad de obtener un as
(b) Probabilidad de que el resultado sea par

15
(c) Probabilidad de que el resultado sea mayor o igual a 5
Solución Nombremos los eventos, A: salió un as, B: el resultado es par, C: el
resultado es mayor o igual a 5. Tendremos

P(A) = P({1}) = p(1) = 1/21

P(B) = P({2} ∪ {4} ∪ {6}) = P({2, 4, 6}) = 2/21 + 4/21 + 6/21 = 12/21
P(C) = P({5} ∪ {6}) = P({5, 6}) = 5/21 + 6/21 = 11/21

3.5.2. Equiprobabilidad - Fórmula de Laplace

Definición 3.23 (Fórmula de Laplace). Una forma muy sencilla de asignar la
función de probabilidad puntual en espacios finitos es usando el mismo valor
para todos los eventos elementales, esto es

p(ω) = 1/|Ω| ∀ω ∈ Ω

luego (teoremita), la medida de probabilidad para un evento será

P(A) = |A|/|Ω| ∀A ∈ A

Esta forma de asignar probabilidades se conoce como eventos equiprobables,

fórmula de Laplace, o distribución uniforme en espacio finito. Modela bien juegos
de azar (dados, ruleta, cargas, etc.), se aplica también a fı́sica de partı́culas
(mecánica estadı́stica).

Convención 3.24. Usaremos espacios equiprobables o fórmula de Laplace en

los siguientes casos:
Para sacar bolas de una urna o cartas de un maso, consideran Ω con un
elemento para cada bola o carta.
Lanzamiento de un dado, moneda, etc.; salvo que explı́citamente se aclare
que no se trata de un elemento equilibrado
Cuando el enunciado liste o dé un conjunto y diga que sus eventos son
equiprobables o que se elige al azar entre sus elementos
Cuando el experimento completo consista en realizar dos o más experi-
mentitos tı́picos de espacios equiprobables (dados, monedas, urnas, etc.),
usaremos fórmula de Laplace sobre Ω = Ω1 × Ω2 . . ., donde los Ωi son
todos los posibles resultados de cada uno de los experimentitos.
Ejemplo 3.25 (Lanzamiento de dos dados equilibrados). Se lanzan dos dados
y se registra el resultado en un vector Ω = {ω : ω = (i, j), i, j = 1 . . . 6} (anoto
primero el dado A y luego el dado B), se asigna a todos los resultados la misma
probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número

(c) La probabilidad de que la suma de los dados sea 7

16
Solución Completar el ejemplo.
Ejemplo 3.26 (Lanzamiento de dos dados extraños). Se lanzan dos dados y
se registra el resultado en un vector Ω = {ω : ω = (i, j), i ≤ j, i, j = 1 . . . 6}
(anoto siempre primero el menor resultado), se asigna a todos los resultados la
misma probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número

(c) La probabilidad de que la suma de los dados sea 7

Solución Completar el ejemplo.
Pregunta: si tuviera que modelar (digamos por dinero) el juego de lanzar dos
dados y apostarle a lo que suman, ¿qué modelo elige de los dos presentados?
¿por qué? ¿la convención vista indica si se debe elegir uno de los dos modelos?

3.5.3. Espacios numerables

Ejemplo 3.27 (Lanzamientos de moneda hasta primera cara). Lanzaremos una
moneda hasta obtener la primera cara. Asignamos la probabilidad (1−r)n−1 r al
evento el experimento duró exactamente n lanzamientos, donde 0 < r < 1, n ≥ 1
(aceptemos que la asignación es correcta y define un espacio de probabilidad).

(a) ¿Cuál es la probabilidad de que el experimento dure una cantidad par de

lanzamientos?
(b) ¿Cuál es la probabilidad de que el experimento se prolongue infinitamente?
Solución: Llamando A a cara y E a ceca, podemos describir nuestro espacio
muestral como:

Ω = {A, EA, EEA, EEEA, EEEEA, . . .} ∪ {E ∞ }

Ω = {ω : ω = E n−1 A, n ≥ 1} ∪ {E ∞ }
Usamos la notación de potencia para describir que la letra E se repite tantas
veces. Tenemos por consigna P({E n−1 A}) = p(E n−1 A) = (1 − r)n−1 r.
Calculemos para entender un poco el modelo la probabilidad de sacar cara
en el primer lanzamiento:

P({A}) = p(A) = r

es decir, con este modelo la probabilidad de ver cara en el primer lanzamiento

es r.
Sigamos resolviendo el ejercicio, sea D: la cantidad de lanzamientos fue par,
tenemos D = {EA, EEEA, EEEEEA, . . .}, con nuestra notación de potencias
se escribe de forma compacta:
∞
!
[
2i+1
P(D) = P E A
i=0

17
como los eventos son disjuntos, sacamos la unión infinita para afuera como serie
y seguimos...
∞ ∞
X X i r(1 − r)
··· = (1 − r)2i+1 r = r(1 − r) (1 − r)2 =
i=0 i=0
1 − (1 − r)2

y ya conseguimos la respuesta a la parte (a). Si tomamos por ejemplo r = 0.5,

el resultado es algo curioso:
0.5 · 0.5 1
P(D) = 2
=
1 − 0.5 3
Sigamos con el ejercicio. Definimos Bi : el experimento duró más de i lanza-
mientos.
 
[i Xi Xi
P(Bi ) = 1−P(Bic ) = 1−P  {E j−1 A} = 1− P {E j−1 A} = 1− (1−r)j−1 r

j=1 j=1 j=1
T∞
Definimos B: el experimento se prolonga infinitamente. Tenemos B = i=1 Bi ,
y además la sucesión es decreciente B1 ⊃ B2 ⊃ . . .. Entonces
∞
X
P(B) = lı́m P(Bi ) = 1 − (1 − r)j−1 r = · · · = 0
i→∞
j=1
.

Ejercicios
PyE A: hasta acá pueden hacer ejercicios: 1.2 a 1.6, 1.8.
5 i 1

PyE B: también pueden hacer 1.1, 1.7 usando que P(Ai ) = 6 6, 1.9.

3.6. Introducción a espacios continuos

Definición 3.28 (Números random –INFORMAL–). Sean Ω = [0, 1); por la
σ-álgebra no nos preocuparemos por ahora, digamos que serán todos los sub-
conjuntos agradables en [0, 1). Diremos que tomamos un número al azar en el
intervalo (o número aleatorio o número random o simplemente un random) si
la probabilidad asignada a un intervalo incluido en [0, 1) es su longitud, esto es
P([a, b)) = b − a para todo 0 ≤ a < b < 1, y la probabilidad de uniones de
segmentos disjuntos se extiende de acuerdo a los axiomas.
Para una construcción formal ver Grynberg [1] Probabilidad condicional...
subtı́tulo 4.1. A estos números se los llama números random o números unifor-
mes sobre el intervalo [0, 1).
Nota 3.29 (Sobre los subconjuntos agradables). Es una definición sacada de
Grimmet [5], ejemplo 2.3.4, we can suppose that F contains all nice subsets of
Ω.... Si se quiere ser un poco más formal diremos que la σ-álgebra son todos
los medibles en [0, 1), que incluye a todos los intervalos [a, b) ⊂ Ω, las uniones,
intersecciones y complementos de esos intervalos (admitiendo bordes abiertos
o cerrados). Al conjunto de medibles también se lo llama Borelianos y se lo
denota β(Ω).

18
Ejemplo 3.30. Tomamos un número uniforme, calcular:
(a) La probabilidad de que el número 9 sea la primera cifra decimal del número

(b) La probabilidad de que en las primeras n cifras decimales (después de la

coma) aparezca el 9 al menos una vez
(c) La probabilidad de que en todo el desarrollo decimal del número no aparezca
el 9

Solución Completar el ejemplo.

Definición 3.31 (Punto al azar en una región –INFORMAL–). Sean Λ ⊂ Rn

una región con área finita y positiva. Construimos el espacio de probabilidad
a partir del espacio muestral Ω = Λ; la sigma-álgebra A serán todos los sub-
conjuntos agradables de Λ (los medibles A = β(Λ)), y la probabilidad para un
evento A ∈ A será su área relativa, esto es

|A|
P(A) := ∀A ∈ β(Λ)
|Λ|

(donde | · | hace referencia a la norma euclideana).

Ejercicios
PyE B: pueden hacer ejercicio 1.10, 1.19.

19
4. Independencia y probabilidad condicional
4.1. Independencia estocástica
Definición 4.1 (Independencia estocástica). Una familia de eventos F ⊂ A se
dice independiente si se cumple
!
\ Y
P A = P(A)
A∈S A∈S

para todos los subconjuntos finitos S ⊂ F (ojo, si F tiene n elementos, son

2n − n − 1 ecuaciones que se deben verificar).
En lugar de hablar de familia de eventos independiente habitualmente dire-
mos eventos independientes por simplicidad.
Nota 4.2 (Sobre la independencia). La definición anterior nos indica que una
familia (conjunto) de eventos es independiente si para cualquier subconjunto
finito que elijamos, la probabilidad de la intersección resulta ser igual al producto
de las probabilidades individuales. En la práctica, basta con entender y aplicar
los tres ejemplos que siguen.
Ejemplo 4.3 (Independencia de 2 eventos). La familia {A, B} se dice indepen-
diente si y solo si:
P(A ∩ B) = P(A)P(B)
diremos habitualmente: A y B son independientes.
Ejemplo 4.4 (Independencia de 3 eventos). Tres eventos A, B y C son inde-
pendientes si y solo si se cumplen simultáneamente las siguientes 4 ecuaciones:
P(A ∩ B) = P(A)P(B)
P(B ∩ C) = P(B)P(C)
P(C ∩ A) = P(C)P(A)
P(A ∩ B ∩ C) = P(A)P(B)P(C)
Ejemplo 4.5 (Independencia de 4 eventos). Cuatro eventos son independientes
si y solo si simultáneamente: se factorizan las intersecciones de a 2 (6 ecuaciones),
las intersecciones de a 3 (4 ecuaciones), y la intersección de los 4 (1 ecuación).
En total se deben verificar 11 ecuaciones.
Ejemplo 4.6 (Ejercicio). Sea Ω = {dbc, dcb, cdb, cbd, bcd, bdc, ddd, bbb, ccc}, los
eventos son equiprobales (espacio de Laplace, vale que p(ω) = 1/9 y P(A) =
|A|/9). Sean los eventos Dk : la k-ésima letra es una d. Demostrar que la familia
{D1 , D2 , D3 } no es independiente, aunque los eventos sı́ son independientes
tomados de a pares. (Ejercicio tomado de Grimmet-Stirzaker [5] ejemplo 1.5.2)
Teorema 4.7 (Independencia y complementos). Dos eventos: sean A, B even-
tos independientes, vale que: A, B c son independientes, Ac , B son independientes
y Ac , B c son independientes.
Tres eventos: Sean A, B, C eventos independientes, vale que: A, B, C c son
independientes, A, B c , C son independientes, A, B c , C c son independientes... y
ası́ (en total la independencia dada como hipótesis implica otras 7)

20
*Generalización: (lo que sigue no necesita leerlo si entendió bien los casos
anteriores, es más fácil imaginar como se extiende más eventos que formalizarlo
- en clase no se da) Sea A una familia de eventos {Ai : i ∈ I} independiente.
Sea B una familia de eventos {Bi : i ∈ I, Bi = Ai ⊻ Bi = Aci ∀i ∈ I}, i.e.
B se construye a partir de tomar los eventos de A y complementar algunos de
ellos (o ninguno o todos). Entonces B es una familia independiente. (Ver [6], ej.
1.11.17)
Demostración. (tampoco aporta mucho S a fines del curso la demostración, no se
dará en clase) Tomemos C = {Acj (∪i∈I, i̸=j Ai )}, i.e. la familia A tomando
complemento en uno solo de ellos. Para demostrar que C es independiente bas-
tará con verificar, de las 2n − n − 1 ecuaciones aquellas donde aparezca el evento
que cambiamos Acj . Notar que
\
(Aj ∪ Acj ) (∩i̸=j,i∈K Ai ) = (∩i̸=j,i∈K Ai ) ∀K ⊂ I

donde la unión Aj ∪ Acj es disjunta. Tomando probabilidades y distribuyendo

la intersección con la unión, aplicando el axioma de unión disjunta y pasando
términos llegamos a:
\ \
P Acj (∩i̸=j,i∈K Ai ) = P (∩i̸=j,i∈K Ai ) − P Aj (∩i̸=j,i∈K Ai )

a la derecha del igual quedan intersecciones de elementos de A, que es indepen-

diente:
\ Y Y
P Acj (∩i̸=j,i∈K Ai ) = P(Ai ) − P(Aj ) P(Ai )
i̸=j,i∈K i̸=j,i∈K

tomando factor común...

\ Y Y
P Acj (∩i̸=j,i∈K Ai ) = (1 − P(Aj )) P(Ai ) = P(Acj ) P(Ai )
i̸=j,i∈K i̸=j,i∈K

como esto vale para todo K ⊂ I demostramos que C es una familia independien-
te. Si ahora tomamos como punto de partida a C, complementamos uno de sus
eventos y tenemos una nueva familia independiente, y ası́ complementando de a
uno cuantas veces sea necesario seguiremos obteniendo familias independientes
de eventos.

Ejemplo 4.8 (Independencia y complementos). Sean A, B ∈ A eventos, son

equivalentes:
A, B independientes
A, B c independientes
Ac , B independientes
Ac , B c independientes
Ejercicio: demostrar alguna de las equivalencias.
Teorema 4.9 (Independencia de eventos triviales). Sea A ∈ A un evento tal
que o bien P(A) = 0 o bien P(A) = 1, entonces {A, B} es familia independiente
para todo evento B ∈ A. Ver Grimmet [5] ej. 1.8.7.

21
4.2. Probabilidad condicional
Definición 4.10 (Probabilidad condicional). Sean A, B ∈ A, con P(A) > 0,
definimos:
P(B ∩ A)
P(B|A) :=
P(A)
El valor definido recién se llama probabilidad condicional de B dado A, o más
abreviado probabilidad de B dado A, o también probabilidad de B sabiendo A
Convención 4.11 (Probabilidad condicional). Sean A, B eventos genéricos,
interpretamos que debemos buscar la probabilidad condicional P (B|A) cuando
leamos frases del tipo:
Dado que ocurrió A, calcule la probabilidad de B.
Hallar la probabilidad de B si se sabe que ocurrió A.
Se realiza el experimento y resulta A. ¿Cuál es la probabilidad de B?.
Se debe tener cuidado con no confundir en el lenguaje informal P (B ∩ A) con
P (B|A), suelen dar lugar a confusión.
Teorema 4.12 (Probabilidad condicional es probabilidad). Sea A ∈ A con
P(A) > 0, definimos Q(B) := P(B|A) para todo B ∈ A, vale que Q es una
medida de probabilidad sobre A y (Ω, A, Q) es un espacio de probabilidad.
Demostración. Verificar que Q cumple los 4 axiomas.
Ejemplo 4.13 (Aplicación). El hecho de que la probabilidad condicional sea
una probabilidad nos permite usar todo lo que sabemos de probabilidades. Por
ejemplo, si P(B|A) = 0.7, podemos inmediatamente calcular la probabilidad de
su complemento:
P(B|A) = 0.7 → P(B c |A) = 0.3
Ojo,
P(B|A) = 0.7 → P(B|Ac ) = ni idea
Otro ejemplo rápido:

P(B ∪ C|A) = P(B|A) + P(C|A) − P(B ∩ C|A)

Ejemplo 4.14. Se lanza nuestro dado cargado y se observa que el resultado es

mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución: Sean:
A: el resultado es mayor o igual que 4, A = {4, 5, 6}
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido

P(B ∩ A) P({4, 6}) (4 + 6)/21 2

P(B|A) = = = =
P(A) P({4, 5, 6}) (4 + 5 + 6)/21 3

Ejemplo 4.15. Se lanza un dado equilibrado y se observa que el resultado es

mayor o igual que 4, ¿cuál es la probabilidad de que sea par?
Solución Sean
A: el resultado es mayor o igual que 4, A = {4, 5, 6}

22
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido

P(B ∩ A) P({4, 6}) 2/6 2

P(B|A) = = = =
P(A) P({4, 5, 6}) 3/6 3

NOTA El resultado es el mismo de casualidad... ¿o no?

Teorema 4.16 (Regla del producto). Suponiendo que todos los eventos condi-
cionales tienen probabilidad positiva, tenemos que:
n−1
P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩A2 )P(A4 |A1 ∩A2 ∩A3 ) · · · P(An |∩i=1 Ai )

Ejemplo 4.17 (Uno de bolas). Una urna contiene r bolas rojas y n bolas negras
(con n ≥ 3), se extraen sin reposición 3 bolas, ¿cuál es la probabilidad de que
las 3 sean negras?
Solución Sea Ni : la bola i es negra, aplicando la regla del producto
n n−1 n−2
P(N1 ∩ N2 ∩ N3 ) = · · · = · ·
n+r n−1+r n−2+r
Ejemplo 4.18 (Uno de cartas). Jugando al truco ¿cuál es la probabilidad de
que me repartan primero el as de espadas, luego el 7 de espadas y por último
otra carta de espadas (en ese orden)?
Solución
1 1 8
P(A ∩ B ∩ C) = · · · = · ·
40 39 38

Teorema 4.19 (Condicional de condicional). Sea A ∈ A un evento con P(A) >

0, sea Q(X) = P (X|A) para todo evento X ∈ A. Sea B ∈ A es tal que Q(B) >
0, vale que:
Q(X|B) = P(X|A ∩ B)
Ver Grimmet-Stirzaker [5] ej. 1.8.9.

Demostración.
Q(X ∩ B) P(X ∩ B|A) P(X ∩ B ∩ A)/P(A)
Q(X|B) = = = = P(X|A ∩ B)
Q(B) P(B|A) P(B ∩ A)/P(A)

4.3. Probabilidad total, Bayes

Teorema 4.20 (Fórmula de probabilidad total). S Sean los eventos A1 , A2 , . . .
una partición de Ω, esto es Ai ∩ Aj = ∅ ∀i ̸= j y i≥1 Ai = Ω. Para todo evento
B ∈ A se cumple: X
P(B) = P(B|Ai )P(Ai )
i≥1

23
Demostración. Ver Grynberg [1], Probabilidad condicional...,
S subtı́tulo 1.2. El
procedimiento es sencillo, escribir B = B ∩ Ω = B ∩ ( i≥1 Ai ), calcular la pro-
babilidad aplicando aditividad y reemplazar las intersecciones por condicionales
X X
P(B) = · · · = P(B ∩ Ai ) = P(B|Ai )P(Ai )
i≥1 i≥1

Nota 4.21 (Sobre la fórmula de probabilidad total). Algunas consideraciones:

Para aplicar el teorema necesitamos P(Ai ) ≥ 0. Sin embargo, podemos

generalizar el teorema sin perder validez con la siguiente tramolla: en caso
de P(Ai ) = 0 tachar el término P(B|Ai )P(Ai ) de la sumatoria y listo.
Una partición tı́pica es Ω = A ∪ Ac . La usaremos muy a menudo, dando
por resultado P(B) = P(B|A)P(A) + P(B|Ac )P(Ac )

Abreviaremos en clase la fórmula de probabilidades totales con la sigla

FPT, ya sin riesgo de confundirnos con Fútbol para Todos.
Teorema 4.22 (Regla de Bayes).
S . Sean los eventos A1 , A2 , . . . una partición de
Ω, i.e. Ai ∩ Aj = ∅ ∀i ̸= j y i≥1 Ai = Ω. Sea el evento B ∈ A con probabilidad
positiva, se cumple:

P(B|An )P(An ) P(B|An )P(An )

P(An |B) = =P
P(B) i≥1 P(B|Ai )P(Ai )

En su forma más sencilla:

Demostración. Aplicar fórmula de probabilidad total y despejar el término de

la izquierda del igual (lleva un poco de álgebra). Ver Grynberg [1], Probabilidad
condicional..., subtı́tulo 1.3.
Ejemplo 4.23 (Malintencionado). Los alumnos antes de presentarse al parcial
hacen completa la guı́a con probabilidad 0.4. Los alumnos que hicieron la guı́a
aprueban el parcial con probabilidad 0.9 y aquellos que no la hicieron lo hacen
con probabilidad 0.03. ¿Cuál es la probabilidad de que un alumno tomado al
azar apruebe el parcial? ¿Si un alumno tomado al azar no aprobó el parcial,
cuál es la probabilidad de que haya hecho la guı́a?
Solución Sean:
A : el alumno aprueba el parcial
G : el alumno hizo la guı́a
Datos: P(G) = 0.4, P(A|G) = 0.9, P(A|Gc ) = 0.03
Inmediato: P(Gc ) = 0.6, , P(Ac |G) = 0.1, P(Ac |Gc ) = 0.97

P(A) = P(A|G)P(G) + P(A|Gc )P(Gc ) = 0.9 · 0.4 + 0.03 · 0.6

P(Ac |G)P(G) 0.1 · 0.4
P(G|Ac ) = c
=
P(A ) 1 − P(A)

24
Ejemplo 4.24 (Falsos positivos). Una enfermedad afecta a 1/100000 personas.
Se tiene un test que diagnostica como positivo a los enfermos con probabilidad
0.99, pero también diagnostica como positivo a los sanos con probabilidad 0.02.
Toma una persona al azar, le hace el test y da positivo, ¿cuál es la probabilidad
de que esté enfermo?
Solución Sean D+ : diagnóstico positivo, E: enfermo, se tiene

P(D+ |E)P(E)
P(E|D+ ) = =
P(P (D+ |E)P(E) + P(D+ |E c )P(E c )

0.99 · 1/100000
= ≃ 0.005
0.99 · 1/100000 + 0.02 · 99999/100000
Este ejemplo es habitual en libros de la materia y libros de difusión cientı́fica.
Muestra que algo que uno supondrı́a como muy eficiente (un test con 99 % de
precisión y solo 2 % de falsos positivos) si se aplica al voleo puede llevar a
conclusiones erróneas. Por eso en algunos casos es necesario tener en cuenta
otras evidencias o realizar más pruebas.

4.4. Independencia condicional

Definición 4.25 (Independencia condicional). Sea C ∈ A un evento tal que
P(C) > 0. A la probabilidad condicional P(·|C) le corresponde la idea de inde-
pendencia condicional, diremos A, B independientes condicionalmente dado C
si y solo si:
P(A ∩ B|C) = P(A|C)P(B|C)
el concepto se extiende naturalmente a una familia de más eventos.
Nota 4.26 (Importante:). En general, la independencia condicional dado C de
A y B no implica ni es implicada por la independencia de A y B (ver Grimmet
[5] ejercicio 1.5.5)

Ejercicios
PyE A: pueden hacer ejercicios: 1.18, 1.20, 1.22 a 1.27. Pueden hacer el 1.17
optativo.
PyE B: pueden hacer ejercicio 1.17, se recomienda en el punto b usar notación
Pk (A) para la probabilidad de que la partida pase la inspección; ejercicio 1.21.

25
5. Bonustrack: Análisis combinatorio
5.1. Generalidades
En espacios finitos con equiprobabilidad (Laplace) calcular la probabilidad
de un evento se reduce a saber contar, P(A) = |A|/|Ω| o coloquialmente casos
favorables / casos totales. Este tipo de problemas es muy común en juegos de
azar, pero se aplicó también a áreas de la fı́sica como la “mecánica estadı́stica”.
Aunque no sea estrictamente un tema de teorı́a de probabilidad, veremos algunas
técnicas para logar simplicity and economy of thought [3] a la hora de contar la
cantidad de elementos de un conjunto.
La mayorı́a de este capı́tulo lo encuentra con más detalle y más ejemplos en
[1], Espacios de Probabilidad, Elementos de Análisis Combinatorio capı́tulos 3
y 4. También en [3] capı́tulos II.5 y IV.2 hay muchı́simos teoremas y ejemplos
de mecánica estadı́stica (esta clase de problemas la llama occupancy problem)
que exceden el alcance del curso.
Teorema 5.1 (Regla del producto). Sean A1 , A2 , . . . An conjuntos finitos, el
producto cartesiano (cuyos elementos son vectores) de ellos tiene cardinal el
producto de cardinales:

|A1 × A2 × · · · An | = |A1 | · |A2 | · · · |An |

Demostración. Hacer una tabla con los elementos (α, β) ∈ A1 × A2 , la canti-

dad de elementos de la tabla es inmediatamente |A1 | · |A2 |. Luego seguir por
inducción.

Teorema 5.2 (Muestras ordenadas). . De un conjunto de n elementos distintos

(cifras, letras), se extrae una muestra de tamaño r, con r ≤ n, con determinado
orden. La cantidad de muestras ordenadas (vectores, palabras) distintas que se
pueden formar es:
#[Link] = nr si se toma la muestra con reposición
n!
#[Link] = n(n − 1) · · · (n − r + 1) = (n−r)! si se toma la muestra
sin reposición

Teorema 5.3 (Muestra ordenamientos completa). Para un conjunto de n ele-

mentos distintos (cifras, letras), la cantidad de ordenamientos distintos (sin
reposición) de todo el conjunto es:

#Ords = n(n − 1) · · · 2 · 1 = n!

Es simplemente un caso particular del teorema anterior sin reposición con r = n.

Teorema 5.4 (Subconjuntos). De un conjunto de n elementos distintos, se ex-
trae un subconjunto de tamaño r, con r ≤ n, sin importar el orden de extracción
(pues son subcojuntos). La cantidad de subconjuntos distintos que se pueden
formar es:
n n!
#Subc = =
r r!(n − r)!
.

26
Ejemplo 5.5. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
b, b? Respuesta: De los 7 lugares para poner letras debo elegir 4 de ellos donde
colocar las letras a, una vez hecho eso el resto
de los lugares lo lleno con b. La
cantidad de palabras que puedo formar es 74 = 35
Ejemplo 5.6. En un pequeño paı́s viven 100 personas y deben elegir 11 dipu-
tados, ¿de cuántas formas disintas pueden hacerlo? Respuesta: Debemos elegir
una subpoblación de 11 de los 100 sin importar en qué orden los elijo, se puede
hacer de 100

11 = 141629804643600 formas distintas.

Teorema 5.7 (Anagramas). En un conjunto de tamaño n (colección de letras),

sus elementos se pueden clasificar en k clases distintas (letras distintas). Sean
r1 . . . rk la cantidad de elementos de cada clase respectivamente, tales que r1 +
. . . + rk = n. El número de formas distintas en que dicha población se puede
ordenar (anagramas), si dentro de cada clase no distinguimos un elemento de
otro, es:
n n!
#Anagramas = =
r1 r2 . . . rk r1 !r2 ! . . . rk !
Ejemplo 5.8. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
8!
b, b, c? Respuesta: 4!3!1! = 280
Ejemplo 5.9. ¿Cuántos anagramas de banana (incluyendo banana) puede for-
6! 7!
mar? ¿y de pomposo? Respuesta: 1!3!2! = 60 para banana; 2!3!1!1! = 420 para
pomposo.
Ejemplo 5.10. En un pequeño paı́s viven 100 personas y deben elegir un presi-
dente, 11 diputados y 3 senadores, ¿de cuántas formas disintas pueden hacerlo?
Respuesta: Considerando que quedan 100 − 1 − 11 − 3 = 85 personas que no
ocuparán cargos públicos, el total de formas en que se pueden cubrir los cargos
100!
es 1!11!3!85! ≃ 1.38 · 1021 .

Ejercicios
Hasta acá pueden hacer ejercicios: 1.13, 1.14.

5.2. Mecánica estadı́stica

Daremos dos formas de asignar probabilidades al problema de distribuir bo-
las en urnas (y nombraremos una tercera que escapa al contenido del curso).
Ambos modelos son matemáticamente correctos, y la elección de uno u otro
dependerá de la fı́sica del problema y la contrastación con resultados experi-
mentales. Debe quedar claro que cuando se habla de partı́culas distinguibles o
indistinguibles no nos importa si las partı́culas realmente son iguales (o si las
personas son o no gemelos, las aceitunas todas de igual forma y tamaño o no,
las bolas de billar del mismo o de distinto número, etc.) sino la mecánica con la
que se ubican en las urnas. En [3] capı́tulo II.5 se encuentra una nota indicando
en qué casos de la fı́sica de partı́culas se aplica cada modelo.
Aclaración: Se habla de estadı́stica en el sentido que le dan los fı́sicos, hace
referencia a las leyes con que se distribuyen las bolas en las urnas.

27
5.2.1. Estadı́stica de Maxwell-Boltzmann
Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son distinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental
es escribiendo un vector: ω = (x1 , x2 . . . xr ), donde xi representa el número de
urna en la que se ubica la bola i. Como cada bola puede estar en cualquiera de
las n urnas, las configuraciones posibles son |Ω| = nr . La probabilidad de cada
evento elemental será P ({ω}) = 1/nr .

5.2.2. Modelo equivalente: Maxwell-Boltzmann

Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Maxwell-Boltzmann, la hipótesis las bolas son distin-
guibles y todas las configuraciones distintas son equiprobables es equivalente a
decir cada una de las r bolas elige al azar una de n urnas de forma independiente
al resto de las bolas. De forma abreviada, se suele decir se colocan r bolas al azar
en n urnas. Según [3], sección II.5, ninguna partı́cula conocida se distribuye en
el espacio de acuerdo a este modelo según la experiencia.
Aunque los fı́sicos no le encuentren aplicación en la mecánica estadı́stica,
nos sirve para modelar (con ciertas hipótesis de independencia): r personas que
se suben en PB a un ascensor y eligen al azar entre n pisos donde se bajan, r
personas a las que le impusieron al azar su fecha de cumpleaños entre n = 365
dı́as, r eventos fortuitos que eligen al azar entre los n = 7 dı́as de la semana
cuándo ocurrir (o entre los n = 12 meses del año), etc.

5.2.3. Estadı́stica de Bose-Einstein

Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son indistinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental
es escribiendo una cadena binaria donde el asterisco ∗ representa una bola y la
barra | representa un cambio de urna, por ejemplo si tiramos 3 bolas en 5 urnas,
y las tres bolas caen en la primera urna, escribimos ωi = ∗ ∗ ∗||||, pero si caen
1 bola en la segunda y 2 en la cuarta escribiremos ωj = | ∗ || ∗ ∗|. La cadena
quedará formada por r asteriscos ∗ y n − 1 barras |. Las configuraciones posibles
son todas las cadenas que podemos formar, |Ω| = r+n−1

r . La probabilidad de
cada evento elemental será P({ω}) = 1/ r+n−1

r .

5.2.4. Modelo equivalente: Bose-Einstein

Como siempre, se distribuyen r bolas (partı́culas) en n urnas (celdas) nume-
radas. Para el modelo de Bose-Einstein, la hipótesis las bolas son indistinguibles
y todas las configuraciones distintas son equiprobables no se puede pensar de
forma sencilla desde el punto de vista de lo que cada bola individualmente hace,
porque no hay independencia entre ellas.
Podemos imaginar que en este modelo aparecen fuerzas de interacción entre
partı́culas cercanas, cuando llega una nueva bola a un sistema no le da lo mismo
elegir una urna vacı́a que una ya ocupada.
El ejemplo práctico para este modelo es el que nos dan los fı́sicos: partı́culas
de fotones, nuclei, y átomos que contienen una cantidad par de de partı́culas

28
elementales. Cualquier otro ejemplo que aparezca en la guı́a o evaluaciones será
forzado (para bajarnos del ascensor a la B-E hay que ponerse de acuerdo, para
meter gatos en cajas a la B-E no alcanza con que sea de noche), y debe in-
dicar el enunciado claramente que las cosas se distribuyen con un modelo de
indistinguibles y con todas las configuraciones distintas equiprobables.

5.2.5. *Estadı́stica de Fermi-Dirac

–no se dará en el curso– Se distribuyen r bolas (partı́culas) en n urnas
(celdas) numeradas, r ≤ n. Se impone la hipótesis: las bolas son indistinguibles,
no puede haber más de una bola por urna, y todas las configuraciones distintas
n

son equiprobables. Las configuraciones posibles son |Ω| = r . La probabilidad
de cada evento elemental será P ({ω}) = 1/ nr .

5.2.6. Comparación
La siguiente tabla resume los modelos que usamos en el curso, se puede
extender también a Fermi-Dirac.

Modelo Maxwell-Boltzmann Bose-Einstein

Caracterización Partı́culas distinguibles, con- Partı́culas indistinguibles,
figuraciones equiprobables configuraciones equiproba-
bles
Ω {x : x ∈ {1 . . . n}r } {x : x ∈ {∗, |}r+n−1 ∧
P
1 {xi = ∗} = r}
Coloquialmente... Vectores de r coordenadas, Palabras formadas por r aste-
cada una representa en qué riscos ∗ y n − 1 barras |. Cada
urna se coloca la bola corres- ∗ representa una bola, cada |
pondiente representa
un cambio de urna
r+n−1
|Ω| nr r
Ejemplo r = 4, n = 5 ω = (1, 1, 3, 1) ω = ∗ ∗ ∗|| ∗ ||
Se aplica a Distribución al azar de r co- Fı́sica de ciertas r partı́culas
sas en n lugares, urnas, cate- distribuidas en n celdas del
gorı́as, etc. espacio

5.2.7. Aplicaciones
Ejemplo 5.11 (Cantidad de bolas en una urna especificada). (Ver [1] Espacios
de Probabilidad... cap. 4). Sea Ua,k : hay exactamente k bolas en la urna a (con
0 ≤ k ≤ r). Se tiene para los distintos modelos (se explicó en clase de dónde
salen las fórmulas):
k r−k
r 1 1
PM B (Ua,k ) = 1−
k n n
r−k+n−2

n−2
PBE (Ua,k ) = r+n−1

n−1

Si ahora queremos fijar la cantidad de partı́culas en más de una urna espe-

cificada (desarrollo propio, –revisar–):

29
k l r−k−l
r! 1 1 2
PM B (Ua,k ∩ Ub,l ) = 1−
k!l!(r − k − l)! n n n

k l m r−k−l−m
r! 1 1 1 3
PM B (Ua,k ∩Ub,l ∩Uc,m ) = 1−
k!l!m!(r − k − l − m)! n n n n

r−k−l+n−3

n−3
PBE (Ua,k ∩ Ub,l ) = r+n−1

n−1
r−k−l−m+n−4

n−4
PBE (Ua,k ∩ Ub,l ∩ Uc,m ) = r+n−1

n−1

Si hacemos que n y r tiendan a infinito pero manteniendo λ = r/n, podemos

aproximar:

λk
PM B (Ua,k ) → e−λ
k!
k
1 1
PBE (Ua,k ) → 1−
1+λ 1+λ
Ejemplo 5.12 (Problema de los cumpleaños). Si queremos saber la probabi-
lidad, en el modelo de M-B, de “C: ninguna urna tiene más de una bola”, lo
calculamos:
(n)r n 1
P(C) = r =
n (n − r)! nr
Si las r bolas son personas y las urnas la fecha de nacimiento, elegida al azar
entre n = 365 (o n = 366) opciones, podemos calcular la probabilidad de que
en un grupo de r personas no haya dos que cumplan el mismo dı́a como:

(365)r 365 1
P(Cr ) = =
365r (365 − r)! 365r

Esta probabilidad ya es P(Cr ) < 0.5 para r = 23, del orden de 0.03 para r =
50 y de 0.01 para r = 70. Moraleja: No le apueste a un docente malintencionado
que en un curso no hay dos personas con el mismo cumpleaños porque pierde
seguro.
El modelo es simplemente una aproximación, la hipótesis de elección al azar
no se cumple ya que la cantidad de dı́as en el año no es un número fijo, y la distri-
bución de nacimientos no es del todo uniforme (ver [Link]
2006/12/19/business/[Link]?_r=2 y [Link]
com/2012/05/[Link]), estadı́sticas en
estados unidos muestran que se intenta que la gente no nazca en festividades
como navidad y año nuevo, y que hay mayor proporción de concepciones en los
meses más frı́os.

30
Ejemplo 5.13 (Celdas vacı́as). Si queremos saber la probabilidad de “Vm :
exactamente m celdas quedan vacı́as” en el modelo de Maxwell-Boltzmann lo
calculamos (ver [3] sección IV.2 fórmulas 2.4 y 2.11):
n−m r
n X n−m m+v
PM B (Vm ) = (−1)v 1−
m v=0 v n

si λ = ne−r/n , se puede aproximar cuando n y r son grandes y con una relación

r/n ni muy grande ni muy chica:

λm
P(Vm ) = e−λ
m!

Ejercicios
PyE A: pueden hacer ejercicios: 1.15.
PyE B: también pueden hacer ejercicios: 1.16.

31
6. Variables aleatorias (unidimensionales)
6.1. Definición de V.A., distribución
Definición 6.1 (Variable aleatoria). Sea (Ω, A, P) un espacio de probabilidad.
Una variable aleatoria (V.A.) sobre Ω es una función X : Ω → R tal que para
todo x ∈ R se cumple:
{ω ∈ Ω : X(ω) ≤ x} ∈ A
i.e. todo evento de la forma {X ≤ x} tiene su correspondiente preimagen en la σ-
álgebra, y entonces tiene asignada una probabilidad dada por P. Esta propiedad
se suele llamar ”X es A-medible”(ver Grimmet, [5] 2.1)
Definición 6.2 (Distribución de una variable aleatoria). Sea X : Ω → Rd
una variable aleatoria en un espacio de probabilidad (Ω, A, P). Llamaremos
distribución e X a la medida µ : β(Rd ) → [0, 1] tal que:

µ(S) := P(X ∈ S) ∀S ∈ Rd

Nota 6.3 (Sobre la Distribución). Trataremos al concepto anterior como algo

puramente teórico. Debemos interpretar a la distribución de X como la habilidad
de calcular cualquier evento relacionado con X. No vamos a trabajar en el curso
con una expresión para µ. Diremos que conocemos la distribución de una variable
aleatoria cuando podamos calcular las probabilidades de eventos de la forma
X ∈ S, eso lo haremos con algunas de las funciones que veremos a continuación.

6.2. Función de distribución

Definición 6.4 (Función de distribución). Sea (Ω, A, P) un espacio de probabi-
lidad, y X una V.A. sobre Ω. La función de distribución (función de distribución
acumulada, Fda, cdf) FX (x) de la variable aleatoria X se define:

FX (x) := P(X ≤ x)

Teorema 6.5 (Sobre FX ). Algunas propiedades muy importantes:

Para cualquier variable aleatoria X, la función de distribución FX (x) exis-
te y está definida para todo x ∈ R.
Para la variable X, conocer la función de distribución FX (x) implica co-
nocer perfectamente su distribución.
FX (x) tiene las siguientes propiedades esenciales:
(a) es no decreciente, FX (a) ≤ FX (b)
(b) es continua por derecha, ∀a ∈ R FX (a+ ) = lı́mx↓a FX (x) = FX (a)
(c) va de 0 a 1, lı́mx→−∞ FX (x) = 0, lı́mx→+∞ FX (x) = 1
Definición 6.6 (Función de supervivencia). Sea X una V.A. con función de
distribución FX (x). Se define su función de supervivencia (survival function)

SX (x) := 1 − FX (x) = P(X > x)

(simplemente es una nueva definición, en algunas aplicaciones resulta más cómo-

do escribir SX que 1 − FX )

32
Teorema 6.7 (Cálculo de probabilidades con FX ). Sea FX (x) la función de
distribución de la V.A. X, y sean a, b ∈ R números tales que a ≤ b. Se cumple:
1. P(a < X ≤ b) = FX (b) − FX (a)
2. P(X = a) = FX (a) − FX (a− )
3. P(a ≤ X ≤ b) = FX (b) − FX (a) + P(X = a)
4. P(a < X < b) = FX (b) − P(X = b) − FX (a)
5. P(a ≤ X < b) = FX (b) − P(X = b) − FX (a) + P(X = a)
6. P(X > a) = 1 − FX (a) = SX (a)
7. P(X < a) = FX (a− )
Nota 6.8 (Sobre el cálculo de probabilidades). Del teorema anterior, es funda-
mental entender y saber los primeros dos incisos. El resto son solo vueltas sobre
lo mismo.

Ejercicios
Hacer ejercicio 2.2.

6.3. Clasificación, funciones de probabilidad y de densidad

6.3.1. Discretas
Definición 6.9 (Átomos). Sea X una V.A. en un espacio de probabilidad,
diremos que a ∈ R es un átomo (punto pesado, punto con masa positiva) de X
si y solo si P(X = a) > 0. Llamaremos At(X) al conjunto de todos los átomos
de X, i.e.:
At(X) = {a ∈ R : P(X = a) > 0}
Teorema 6.10 (Sobre el número de átomos). La cantidad de átomos de una
variable aleatoria es finita o numerable.
Definición 6.11 (V.A. Discreta - Función de probabilidad puntual). Diremos
que X es una variable aleatoria discreta si y solo si:
X
P(X = a) = 1
a∈At(X)

i.e. toda la probabilidad se concentra en los átomos. A la función pX : R → [0, 1]

definida por
pX (x) := P(X = x)
la llamaremos función de probabilidad puntal de X, o función de proababilidad
de masa o probability mass funcion (pmf ).
Teorema 6.12 (Sobre la pX ). Dos cosas a destacar
Si X discreta, conocer su función de probabilidad puntual pX (x) implica
conocer perfectamente su distribución.

33
La función de probabilidad puntual pX (x) tiene las siguientes propiedades
esenciales:

(a) pX (x) ∈ [0, 1]

P
(b) x∈At(X) pX (x) = 1

Teorema 6.13 (Escalera). Si X es una variable aleatoria discreta, su función

de distribución FX (x) es constante por tramos y pega saltos en los átomos (una
escalera).

6.3.2. Continuas
Definición 6.14 (V.A. Continua). Diremos que X es una variable aleatoria
continua si y solo si FX (x) es continua en todo R

Definición 6.15 (V.A. Mixta). Diremos que X es una variable aleatoria mixta
si y solo si no es ni discreta ni continua.
Definición 6.16 (V.A. Absolutamente Continua). Diremos que X es una va-
riable aleatoria absolutamente continua si y solo si existe fX : R → [0, +∞)
medible (integrable) tal que para todo a, b ∈ R, tales que −∞ ≤ a < b < +∞,
vale que:
Z b
P(a < X ≤ b) = fX (x)dx
a

A fX la llamaremos función de densidad (función de densidad de probabilidad,

fdp, pdf) de la variable aleatoria X.
Teorema 6.17 (Sobre V.A. absolutamente continua). Si X es absolutamente
continua vale que:
Rx
1. FX (x) = −∞ fX (t)dt
d
2. dx FX (x) = fX (x) ∀x ∈ R donde fX (x) es continua
3. P(X = a) = 0 para todo a ∈ R
4. X es continua (pero existen continuas que no son absolutamente continuas,
e.g. distribuciones de Cantor. No las veremos en el curso)

Teorema 6.18 (Sobre la fX ). Dos cosas a destacar (análogas al caso discreto,

comparar con teorema 6.12)
Si una variable es absolutamente continua, conocer su función de densidad
fX (x) implica conocer perfectamente su distribución.

La función de densidad de probabilidad fX (x) tiene las siguientes propie-

dades esenciales:
(a) fX (x) ≥ 0
R +∞
(b) −∞ f (t)dt = 1
Convención 6.19 (Sobre las continuas). En el curso usaremos como sinónimos
continua y absolutamente continua

34
Definición 6.20 (Rango). —INFORMAL— Llamaremos rango Rg(X) a los
posibles valores que puede tomar la variable X. Para variables discretas, el rango
es el soporte de la función de probabilidad, y para continuas es el soporte de la
función de densidad, i.e.
Rg(X) = {x : pX (x) > 0} (d)
Rg(X) = {x : fX (x) > 0} (c)
dFX (x)
Rg(X) = {x : P(X = x) > 0 ∨ dx > 0} (mixta)

A veces usaremos como sinónimo soporte de la variable aleatoria, aunque no es

del todo correcto (ver Billingsley [7]).
Ejemplo 6.21 (Varios). Dar en clase ejemplo de dado cargado (discreta) y de
número random (continua). Para mixtas referir al ejercicio 2.2.

Teorema 6.22 (Existencia). Veremos tres teoremas que garantizan la existen-

cia de una V.A. X en un e.p.

1. Sea FX (x) : R → [0, 1] una función con las propiedades esenciales de una
función de distribución (ver 6.5), entonces existe una V.A. X en un tal
que FX es su función de distribución
2. Sea pX (x) : A → [0, 1] (con A ⊂ R discreto o numerable) una función con
las propiedades esenciales de una función de probabilidad puntual (ver
6.12), entonces existe una V.A. discreta X en un tal que pX es su función
de probabilidad puntual
3. Sea fX (x) : R → [0, +∞) una función con las propiedades esenciales de
una función de densidad (ver 6.18), entonces existe una V.A. continua X
en un tal que fX es su función de densidad

Demostración. La existencia se demuestra fácilmente construyendo la variable

aleatoria, tomar Ω = R, A = β(R) y P inducida por la medida µ a partir de la
función FX , pX o fX ; luego X(ω) = ω es la variable aleatoria que buscábamos.

Nota 6.23 (Sobre la existencia). Puede considerar al teorema anterior como

algo puramente conceptual, que nos dará tranquilidad de conciencia en lo que
queda del curso cuando hablemos directamente de variables aleatorias sin referir
explı́citamente a un experimento conceptual o a un espacio de probabilidad.
También puede pasarlo impunemente de largo.

Ejemplo 6.24 (Ejemplos). Dar V.A. Pascal (discreta) y V.A. Uniforme, Gam-
ma, Weibull, Normal (continuas). Sse usan al principio de guı́a 2, los alumnos
deben buscarlas en la tabla de distribuciones.

35
6.4. Intensidad de fallas, Cuantiles
Definición 6.25 (Función intensidad de fallas). Diremos que la V.A. absolu-
tamente continua T tiene función de intensidad de fallas λ(t) si y solo si:
Z t
FT (t) = 1 − exp − λ(s)ds 1{t > 0}
0

Teorema 6.26 (Sobre la intensidad de fallas). Vale que:

(1) T tiene función de densidad:
Z t
fT (t) = λ(t) exp − λ(s)ds 1{t > 0}
0

(2) Si λ(t) = λ entonces T es una V.A. E(λ), con función de densidad:

fT (t) = λ exp (−λt) 1{t > 0}

c−1
(3) Si λ(t) = αc αt (con c y α reales positivos), entonces T es una V.A.
Wei(c, α), con función de densidad:
c−1 c
c t t
fT (t) = exp − 1{t > 0}
α α α

Definición 6.27 (a-cuantil). Sea a ∈ (0, 1), X una V.A., definimos un a-cuantil
de X a cualquier número real xa ∈ R tal que:
1. FX (xa ) − P(X = xa ) ≤ a
2. a ≤ FX (xa )

NOTA: La definición habitual es otra (equivalente), en clase se dará solo la

primera. *Definición equivalente:
1. P(X < xa ) ≤ a
2. a ≤ P(X ≤ xa )

Teorema 6.28 (Existencia). El a-cuantil siempre existe. No necesariamente es

único (puede ser único o un segmento).
Demostración. Ver [1] Variables aleatorias... cap. 1.3.
Teorema 6.29 (Cuantil de continuas). Si X es una V.A. continua, entonces
xa es un a-cuantil si y solo si FX (xa ) = a

Ejemplo 6.30 (Nota de la industria). Los materiales estructurales para la cons-

trucción civil se especifican general por su 0.05-cuantil o su 0.10-cuantil, es decir,
cuando uno solicita una determinada resistencia (bajo un ensayo normalizado),
hay una probabilidad baja (0.05 o 0.10) de que esa resistencia especificada no
sea satisfecha por el material.

36
Definición 6.31 (Mediana, cuartiles...). Se llama mediana de X al 0.5-cuantil
de X.
Se llaman primer, segundo y tercer cuartil a los 0.25-cuantil, 0.50-cuantil y
0.75-cuantil.
Se llaman quintiles los 0.20-cuantil, 0.40-cuantil, · · · 0.80-cuantil.
Se llaman deciles a los 0.10-cuantil, 0.20-cuantil, · · · 0.90-cuantil.

Ejercicios
Pueden hacer 2.3 a 2.8; tener a mano la tabla de distribuciones, les va a
servir en 2.4 y 2.8.
Opcionales 2.9, 2.10. Opcional si leyeron función intensidad de fallas 2.17.

6.5. Variables aleatorias famosas

O más técnicamente familias paramétricas. —COMPLETAR— Explicar no-
tación X ∼ E(λ), X ∼ Pas(k, p), etc. Aclarar que no hay convención única, en
clase vale la tabla oficial de la materia.

6.6. Variables truncadas (o condicionadas)

Definición 6.32 (Variable truncada o condicionada). Sea X una variable alea-
toria, sea B ⊂ R un medible tal que P(X ∈ B) > 0. Llamaremos “X truncada a
B”, “X dado B”, “X condicionada a B”, etc., a la variable aleatoria que resul-
ta de tomar valores de X condicionados a estar en B. Formalmente definimos
X|X ∈ B a la variable aleatoria con distribución

P(X ∈ (S ∩ B))
P ((X|X ∈ B) ∈ S) = P(X ∈ S|X ∈ B) =
P(X ∈ B)
para todo S ⊂ R medible.
Teorema 6.33 (Cálculo de densidad o probabilidad). Sea X una V.A. discreta
(d) o absolutamente continua (c), y sea B un medible tal que P(X ∈ B) > 0,
vale que:
(d)
pX (x) · 1 {x ∈ B} pX (x) · 1 {x ∈ B}
pX|X∈B (x) = = P
P(X ∈ B) t∈B pX (t)

Teorema 6.34 (F.P.T. para truncadas). Sea X una V.A. discreta (d) o absolu-
tamente continua (c); {Bi ⊂ R, i ≥ 1} medibles disjuntos tal que P(X ∈ Bi ) > 0
y P(X ∈ ∪i≥1 Bi ) = 1 vale que:
(d) X
pX (x) = pX|X∈Bi (x)P(X ∈ Bi )
i≥1

37
(c) X
fX (x) = fX|X∈Bi (x)P(X ∈ Bi )
i≥1

Ejemplo 6.35 (Ejemplos truncadas). Dar exponencial (ver pérdida de memo-

ria), uniforme, geométrica (ver pérdida de memoria), dado cargado.

Ejercicios
Pueden hacer 2.18 a 2.20.

38
7. Simulación
7.1. Definiciones y teoremas
Definición 7.1 (Inversa generalizada). Sea F una función de distribución, de-
finimos su inversa generalizada:
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)} u ∈ (0, 1)
Nota 7.2 (Interpretación). Graficar.
1. Si u tiene una sola preimagen, F −1 (u) es la inversa usual.
2. Si u tiene infinitas preimágenes, F −1 (u) es la menor de ellas.
3. Si u no tiene preimagen, F −1 (u) es el valor de x donde está el salto (dis-
continuidad) que corresponde a u.
Teorema 7.3 (Simulación). Sea U una variable aleatoria con distribución U ∼
U(0, 1) (uniforme o número random), FX una función de distribución, entonces
X := F −1 (U ) es una variable aleatoria con distribución dada por FX .
−1
Demostración. Notar que son equivalentes: FX (u) ≤ x ⇔ u ≤ FX (x) (no es
−1
tan sencillo como parece, recordar que FX es la inversa generalizada).
Luego
−1
P(X ≤ x) = P(FX (U ) ≤ x) = P(U ≤ FX (x)) = FU (FX (x)) = F (x)

Nota 7.4 (Sobre simulación). La importancia de este teorema está en que los
lenguajes de programación permiten generar números seudo-aleatorios a los que
en general se puede aceptar como números random. A partir de ellos, implemen-
tando un algoritmo que calcule inversas generalizadas podemos obtener valores
simulados de la variable aleatoria que queramos estudiar.
Teorema 7.5 (Transformada F). Sea X una VA absolutamente continua con
Fda FX , se define U := FX (X), entonces U es una VA uniforme U ∼ U(0, 1).
Teorema 7.6 (Algoritmo para transformar VA). Sea X una VA absoluta-
mente continua con función de distribución FX , y sea FY una función que
cumple las propiedades esenciales de una función de distribución. Se define
Y := FY−1 (FX (X)), entonces Y es una VA cuya Fda es FY .

7.2. Números aleatorios

La mayorı́a de los lenguajes de programación traen incorporadas alguna fun-
ción para generar números pseudo-aletaorios, que en la precisión que la máquina
permite se comportan a nuestros fines como los números random ya presentados
en el ejemplo 3.28. Antiguamente, los libros de probabilidad traı́an como anexo
tablas con números seudo aleatorios de determinada precisión. Y si se quiere
números realmente aleatorios hay algunos sistemas que a partir de mediciones
fı́sicas generan mediante filtros y funciones números aleatorios con la precisión
que se desee, por ejemplo los que se ofrecen en [Link].
El generador más difundido actualmente es el mezclador de Mersenne (o
Mersenne Twister). Ver:

39
[Link]
[Link]
[Link]
[Link]
[Link]
Algoritmo 7.7 (Generador casero). Una forma casera sencilla de generar núme-
ros pseudo-aleatorios es la siguiente. Se necesitan tres enteros a, b y m. Se arran-
ca en un número entero (llamado semilla) 0 ≤ X0 < m, y a partir de allı́ se
obtienen los siguientes números enteros Xi como función del paso anterior. Si
dividimos Xi /m obtendremos un número Ui ∈ [0, 1).
Xi+1 = (a · Xi + b) mód m Ui+1 = Xi+1 /m
se repite tantas veces como sea necesario. El valor Xi puede ir pisando al anterior
para no consumir memoria. La calidad de los números generados depende de
los enteros elegidos, sugerencia: a = 16807 b = 0 m = 231 − 1
Tanto este generador sencillo como los mejores generadores tienen como
problema la periodicidad, después de una cantidad de simulaciones (grande) los
números comienzan a repetirse en exactamente la misma secuencia.
Tener control sobre los randoms (usar siempre la misma secuencia) puede
ser conveniente a la hora de revisar, depurar y optimizar código, ası́ en dife-
rentes corridas si uno no altera la parte estrictamente de simulación obtendrá
exactamente los mismos resultados.

7.3. Simulación de VA discretas

Definir la inversa generalizada para una variable discreta consiste realmente
en ver en cuál de los agujeros “cae” la uniforme y con eso generar la variable
simulada. Mejor que definir una función inversa f_inv(u) es definir sus lı́mites
y luego realizar una búsqueda. La búsqueda puede ser casera o usar funciones
que traiga el lenguaje en el que estemos programando.
Simulemos entonces un experimento sobre Ω = {ω1 , ω2 , . . . , ωm }. Cada even-
to elemental ωi tiene asignada una probabilidad puntual p(ωi ) = pi . Lo que
haremos será partir el intervalo [0, 1) en m intervalos numerados de 1 a m, ca-
da uno con longitud pi ; tomamos un número random U y vemos en cuál de
los intervalos cae, diremos que en nuestra simulación ocurre el evento ωk si U
pertenece al k-ésimo intervalo.
Algoritmo 7.8 (Simulación discreta). Sea U ∼ U(0, 1). Sea X V.A. discreta
que toma valores en {1 . . . m} con probabilidades respectivas p1 , p2 , . . . , pm (que
deben sumar 1). Definimos los lı́mites de los intervalos:
k
X
L0 := 0 Lk := pi
i=1
Pm
(notar que Lm = i=1 pi = 1). Simulamos:
m
X
X := k · 1 {Lk−1 ≤ U < Lk }
k=1

40
Ejemplo 7.9 (Dado cargado). El siguiente algoritmo sirve para simular cual-
quier variable discreta sobre un espacio finito (y con ciertas limitaciones se puede
adaptar a un numerable). Como ejemplo simularemos el problema visto en el
3.22, basta que el usuario modifique los datos Omega y pp para simular otro
problema.
El algoritmo arma el vector con los lı́mites Lk , luego simula y acumula
los resultados en un vector de frecuencias absolutas. Por último, divide por
la cantidad de simulaciones para obtener la frecuencia relativa, y muestra por
pantalla la diferencia entre la probabilidad y la frecuencia relativa.
Se desarrolló en lenguaje Python, usando listas a modo de vectores. No se
usan paquetes para cálculo numérico, ni búsquedas binarias, ni sintaxis espe-
ciales del lenguaje; se espera que el alumno pueda “traducirlo” fácilmente a
cualquier lenguaje que maneje.
Algoritmo 7.10 (Simulación variables discretas). Versión básica

1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3 """
4 Simulacion de variables aleatorias discretas
5 Version sencilla: sin busqueda binaria, sin modulos numericos
6 """
7 #Imports
8 from __future__ import division
9 import random
10

11 #Numero de simulaciones
12 n_sim = int(1e6)
13

14 #Datos - Modificar a gusto

15 Omega = [1, 2, 3, 4, 5, 6]
16 pp = [1./21, 2./21, 3./21, 4./21, 5./21, 6./21]
17

18 #Cardinal de Omega
19 n_Omega = len(Omega)
20

21 #Inicializacion de listas
22 lims = [0] * (n_Omega+1)
23 frec = [0] * n_Omega
24 frel = [0] * n_Omega
25 delta = [0] * n_Omega
26 delta_r = [0] * n_Omega
27 uu = [0] * n_sim
28

29 #Limites de intervalos para simulacion

30 for i in range(n_Omega):
31 lims[i+1] = lims[i] + pp[i]
32 lims[-1] = 1.0 #evita errores de redondeo
33

34 #Uniformes (se podrian leer desde archivo)

35 for i in range(n_sim):
36 uu[i] = [Link]()
37

38 #Simulacion y conteo de frecuencia absoluta

41
39 for i in range(n_sim):
40 for j in range(n_Omega):
41 if lims[j] <= uu[i] and uu[i]<lims[j+1]:
42 frec[j] += 1
43

44 #Calculo de frecuencia relativa y diferencia con probabilidad

45 for i in range(n_Omega):
46 frel[i] = frec[i] / n_sim
47 delta[i] = abs(frel[i]-pp[i])
48 delta_r[i] = round(delta[i],6)
49

50 #Salida por pantalla

51 print(’Omega: ’ + str(Omega))
52 print(’Frec.: ’ + str(frec))
53 print(’Frel.: ’ + str(frel))
54 print(’|p-f|: ’ + str(delta_r))

La salida por pantalla que obtenemos en una corrida:

Omega: [1, 2, 3, 4, 5, 6]
Frec.: [48052, 94916, 143122, 190068, 238114, 285728]
Frel.: [0.048052, 0.094916, 0.143122, 0.190068, 0.238114, 0.285728]
|p-f|: [0.000433, 0.000322, 0.000265, 0.000408, 1.9e-05, 1.4e-05]

Notar que con 106 simulaciones obtenemos unas 3 cifras correctas para todas
las probabilidades simuladas.
En el ejemplo vimos simplemente cómo hacer una simulación, y que para n
grande la frecuencia relativa se acercó a la probabilidad, pero no aprendimos
nada nuevo sobre el experimento. Lo más potente del método de simulación es
modelar sistemas complejos y calcular probabilidades que desconocemos.
Algoritmo 7.11 (Espacios equiprobables). Sea X una V.A. discreta que toma
valores en {1 . . . n} de manera equiprobable (ejemplo tı́pico es extracciones con
reposición de un bolillero con n bolillas). Sea U un número random, simulamos:

X := ⌊U · n⌋ + 1

(el sı́mbolo ⌊·⌋ significa redondear hacia abajo).

Ejercicio 7.12 (Jugando al rol con dados cargados). Lance 2 dados cargados
(los que venimos usando) y sume los resultados, luego lance 3 dados equilibrados
y sume los resultados; ¿qué probabilidad hay de que la primera suma sea mayor
a la segunda?
Ejercicio 7.13 (Paradoja de De Mere). Decida qué es más probable: (a) obtener
al menos un as en 4 tiros de un solo dado, (b) obtener al menos un doble as en
24 tiros de dos dados.

7.4. Simulación de VA continuas y mixtas

Usar la F inversa. Hay ejemplos en el campus.

42
Ejercicios
PyE B: pueden hacer ejercicio 2.12 a 2.16.

43
8. Funciones para análisis de datos
Definición 8.1 (Función de distribución empı́rica). Sea x = (x1 , x2 . . . xn ) un
vector en Rn . Se define la función de distribución empı́rica asociada al vector x:
n
1X
F dex (t) := 1 {xi ≤ t}
n i=1

Nota 8.2 (Descripción informal). : Arranca en 0, y cada vez que encuentra un

xi pega un saltito de altura 1/n (si encuentra un x repetido m veces el salto es
de altura m/n). Si llamamos a las xi muestras, podemos escribir:
# de muestras ≤ t
F dex (t) :=
# total de muestras
SUGERENCIA: Para construir la F de, ordenar de menor a mayor el vector x
Teorema 8.3 (Fde es Fda). La función de distribución empı́rica asociada a un
vector es una función de distribución.
Definición 8.4 (Función histograma). Sea x = (x1 , x2 . . . xn ) un vector en Rn .
Sean a0 < a1 < . . . < am valores lı́mites para formar intervalos que contengan
a toda la muestra (a0 ≤ xi < am ∀i). Los lı́mites forman los intervalos Ij :=
[aj−1 , aj ) con longitudes Lj := aj − aj−1 . Definimos las frecuencias absolutas
como la cantidad de coordenadas xi que caen en el intervalo:
n
X
fj := 1 {aj−1 ≤ xi < aj }
i=1

luego la función histograma asociada al vector y a los lı́mites:

m
1 X fj
histx,a (t) := 1 {aj−1 ≤ t < aj }
n j=1 Lj

Nota 8.5 (Descripción informal). : La función es constante por tramos, en cada

tramo vale la cantidad de muestras que cayeron en ese intevalo dividido (total
de muestras por ancho de intervalo). Si llamamos a las xi muestras, podemos
escribir:
# muestras que caen en el intervalo que contiene a t
histx,a (t) :=
(# total de muestras) · (longitud del intervalo)
Teorema 8.6 (hist es fdp). La función histograma asociada a un vector y a los
valores lı́mites es una función de densidad (siempre y cuando todas las muestras
caigan dentro de los lı́mites de los intervalos).
Nota 8.7 (Aplicación de fde e hist). Si la muestra x son valores de una V.A. X
tomados de forma independiente (experimentos repetidos en condiciones ideales)
y la muestra es grande, se espera que
F dex (t) ≃ FX (t)
si además elegimos bien los valores lı́mite ai y X es una V.A. continua, también
se espera para muestra grande
histx,a (t) ≃ fX (t)

44
Ejemplo 8.8 (Análisis de datos). Se ensaya la duración en años de determinado
componente electrónico, obteniéndose los siguientes resultados:
0.688, 0.801, 0.942, 0.383, 0.825, 0.383, 0.150, 0.091
a Hallar y graficar la función de distribución empı́rica. Estimar a partir de ella
la probabilidad de que un componente dure más de 0.7 años.
b Usando valores lı́mite 0.0, 0.5, 0.8, 1.0, hallar y graficar la función histograma.
Estimar a partir de ella la probabilidad de que un componente dure más de
0.7 años.
Resolución: (a) Lo primero que se recomienda hacer es ordenar el vector de
datos de menor a mayor. Tenemos
x(ord.) = (0.091, 0.150, 0.383, 0.383, 0.688, 0.801, 0.825, 0.942)
Luego armamos la función de distribución empı́rica aplicando la fórmula. Se
puede escribir con llaves o como suma de indicadoras:
1 2
F dex (t) = 1 {0.091 ≤ t < 0.150} + 1 {0.150 ≤ t < 0.383} + · · ·
8 8
4 5
· · · + 1 {0.383 ≤ t < 0.688} + 1 {0.688 ≤ t < 0.801} + . . .
8 8
6 7
· · · + 1 {0.801 ≤ t < 0.825} + 1 {0.825 ≤ t < 0.942} + 1 {0.942 ≤ t}
8 8
Notar que es una escalera que cada vez que aparece una muestra pega un
salto de altura 1/n (si hay valores muestrales que aparecen dos veces pega saltos
dobles).
Para estimar la probabilidad pedida:
3
P(X > 0.7) = 1 − FX (0.7) ≃ 1 − F dex (0.7) = = 0.375
8
Resolución: (b) Ahora debemos contar cuántos valores fj nos caen en cada
intervalo Ij de longitud Lj . También es más fácil hacer el conteo si tenemos el
vector de las xi ordenado.
I1 = [0.0, 0.5), f1 = 4, L1 = 0.5
I2 = [0.5, 0.8), f2 = 1, L2 = 0.3
I3 = [0.8, 1.0), f3 = 3, L3 = 0.2
Con esos datos construimos la función histograma:
4 1 3
histx,a (t) = 1 {0.0 ≤ t < 0.5}+ 1 {0.5 ≤ t < 0.8}+ 1 {0.8 ≤ t < 1.0}
8 · 0.5 8 · 0.3 8 · 0.2
histx,a (t) = 1.0·1 {0.0 ≤ t < 0.5}+0.41667·1 {0.5 ≤ t < 0.8}+1.875·1 {0.8 ≤ t < 1.0}
Para estimar la probabilidad pedida:

Z ∞ Z 1.0
1 3
P(X > 0.7) = fX (t)dt ≃ histx,a (t)dt = 0.1 · + 0.2 · ≃ 0.4167
0.7 0.7 2.4 1.6
Notar que las aproximaciones usando la F de y la función hist no tienen
por qué coincidir. Se supone que para una muestra grande deberı́an dar valores
parecidos.

45
46
Ejercicios
PyE B: pueden hacer ejercicio 2.11.

47
9. Variables aleatorias n-dimensionales
Todo lo dado en este capı́tulo es un resumen de [1], Vectores aleatorios. Ahı́
hay más ejemplos y gráficos.

9.1. Definiciones, distribución conjunta

Un vector aleatorio (o variable aleatoria n-dimensional) es una función X :
Ω → Rn a la que, como hicimos en el caso real, le exigimos que todos los
eventos X ≤ x tengan asignada una probabilidad. Es simplemente extender
el concepto de variable aleatoria de la recta al hiper-espacio. Los llamaremos
vectores aleatorios, variables aleatorias n-dimensionales, o simplemente variables
aleatorias. Las V.A. de una dimensión son un caso particular de las V.A. n-
dimensionales, notar que todas las definiciones son consistentes.
Definición 9.1 (Relación de orden). Sean x, y ∈ Rn , diremos:
x ≤ y ⇐⇒ xi ≤ yi ∀i = 1 . . . n
i.e. x está al sudoeste de y.
Definición 9.2 (Variable aleatoria). Sea (Ω, A, P) un espacio de probabilidad,
X : Ω → Rn una transformación, diremos que X es una variable aleatoria si
cumple {ω ∈ Ω : X(ω) ≤ x} ∈ A ∀x ∈ Rn ; i.e. las antitransformadas de los
eventos de forma X ≤ x vuelven siempre a la sigma-álgebra (análogo al caso
unidimensional, ver definición 6.1).
Definición 9.3 (Función de distribución). Sea X una V.A n-dimensional, de-
finimos su función de distribución:
FX (x) := P(X ≤ x)
Definición 9.4 (Discretas, continuas, mixtas). Clasificaremos también las V.A.
n-dimensionales en 3 tipos
1. Diremos X discreta si existe un conjunto At(X) ∈ Rn finito o numerable
tal que P(X ∈ At(X)) = 1 Llamaremos función de probabilidad conjunta
a:
pX (x) := P(X = x)
2. Diremos X continua si existe una función fX (x) : Rn → [0, +∞) tal que
Z
P(X ∈ S) = fX (t)dt ∀S ⊂ Rn medible
S

llamaremos función de densidad conjunta a fX (x). NOTA: las integrales

son n-dimensionales.
3. Diremos X mixta si no es continua ni discreta.
Llamaremos rango Rg(X) a los puntos de Rn donde X pueda tomar valores,
simplemente extendemos la definición 6.20 al caso n-dimensional.
Ejemplo 9.5 (Continua bidimensional). Sea (X, Y ) una variable aleatoria con
densidad f(X,Y ) . Calcular la probabilidad de que (X, Y ) pertenezca al rectángulo
R = {0 < x < 2, 0 < y < 3} Respuesta
Z Z Z 3Z 2
P((X, Y ) ∈ R) = f(X,Y ) (x, y)dxdy = f(X,Y ) (x, y)dxdy
R 0 0

48
9.2. Marginales
Las coordenadas Xi de un vector aleatorio X son variables aleatorias 1-
dimensionales, y como tales tendrán su propia distribución. A esas variables
aleatorias, para indicar o destacar que se trata de una coordenada de una varia-
ble n-dimensinal, las llamaremos habitualmente variables aleatorias marginales.
Teorema 9.6 (Marginales, función de distribución). Sea X una V.A. n-dimensional
con función de distribución FX (x), vale que:

FXi (t) = lı́m FX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )

xj →+∞∀j=1...n,j̸=i

Teorema 9.7 (Marginales, función de densidad). Sea X una V.A. n-dimensional

discreta (d) o continua (c) con función de probabilidad pX (x) o función de den-
sidad fX (x), vale que:

(d) X
pXi (t) = pX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )
x{1...n}\{i}

Ejemplo 9.8 (Caso bidimensional). Sea (X, Y ) una V.A. 2-dimensional dis-
creta (d) o continua (c) con función de probabilidad p(X,Y ) (x, y) o función de
densidad f(X,Y ) (x, y), vale que:

(c y d) Usando abuso de notación para lı́mites

FX (x) = F(X,Y ) (x, +∞)

FY (y) = F(X,Y ) (+∞, y)

(d) X
pX (s) = p(X,Y ) (s, y)
y
X
pY (t) = p(X,Y ) (x, t)
x

49
9.3. Independencia
Definición 9.9 (Independencia de una cantidad finita de V.A.). Dada una
familia de V.A. (Xi : i ∈ I) con |I| = n < ∞ (I es una colección de ı́ndices finita,
tı́picamente 1 . . . n) definidas sobre un mismo espacio de probabilidad (Ω, A, P ).
Diremos que sus V.A. son conjuntamente independientes sii se verifica para todo
x ∈ Rn : !
\ Y
FX (x) = P {Xi ≤ xi } = FXi (xi )
i∈I i∈I

Definición 9.10 (Independencia de V.A.). Dada una familia de V.A. (Xi : i ∈

I) (donde I es una colección de ı́ndices finita o infinita numerable, tı́picamen-
te 1 . . .) definidas sobre un mismo espacio de probabilidad (Ω, A, P ). Diremos
que sus V.A. son conjuntamente independientes si para cualquier subconjunto
finito de ı́ndices J ⊂ I se verifica que las variables aleatorias (Xj : j ∈ J) son
independientes.
Teorema 9.11 (Independientes a partir de la función de probabilidad o den-
sidad). Sea X = (X1 , . . . , Xn ) el vector con función de probabilidad conjunta
pX (x) (d) o función de densidad conjunta fX (x) (c). Sus coordenadas Xi son
independientes si y sólo si la función de probabilidad o de densidad se factoriza
en las n funciones de probabilidad o de densidad marginales, i.e.:
Qn
(d) pX (x) = i=1 pXi (xi )
Qn
(c) fX (x) = i=1 fXi (xi )
Teorema 9.12 (Condición suficiente para independencia). No es necesario en-
contrar exactamente las funciones de probabilidad o de densidad, basta con
poder factorizar la conjunta:
Qn
(d) pX (x) = k i=1 p∗Xi (xi ) donde p∗Xi : R → [0, 1], k > 0
Qn ∗ ∗
(c) fX (x) = k i=1 fX i
(xi ) donde fX i
: R → [0, ∞), k > 0
Las funciones p∗Xi o fX∗
i
son las funciones de probabilidad o densidad de las
variables aleatorias marginales Xi salvo por una constante multiplicativa.
Nota 9.13 (Sobre la factorización). Dos cosas importantes:
Ojo, no olvidar las indicadoras al factorizar, es un error común y grave.
La factorización de una conjunta como producto de marginales es única.
A veces encontrar las marginales dada una conjunta es tan sencillo como
mirar fijo, factorizar, y repartir correctamente las constantes.
Teorema 9.14 (Condición suficiente para la no independencia). Si el Sop(X)
no se puede describir como un producto cartesiano en Rn entonces sus coordena-
das X1 , . . . , Xn no son independientes. — Hacer gráficos tı́picos de sı́ productos
cartesianos y no productos cartesianos—
Teorema 9.15 (Independendia entre una V.A. Y y una X bernoulli). Sean
X, Y variables aleatorias sobre un mismo e.p., con X ∼ Be(p), son equivalentes:
X, Y independientes

50
P(X = 1, Y ≤ y) = pFY (y)
P(X = 0, Y ≤ y) = (1 − p)FY (y)

P(X = 1, Y > y) = p(1 − FY (y))

P(X = 0, Y > y) = (1 − p)(1 − FY (y))
Demostración. IDEA: Demostrar que la primera sentencia y la segunda son
equivalentes usando la definición de independencia de una cantidad finita de
V.A. Luego, demostrar que la segunda es equivalente al resto usando la pro-
piedad de que si un par de eventos es independiente, al tomar complemento en
alguno de ellos se obtiene un nuevo par independiente.
Nota 9.16 (Sobre independencia contra Bernoulli). A veces se quiere demos-
trar la independencia de dos variables donde una de ellas es Bernoulli (ejercicios
de coloquio, ejercicio 4.14), bastará elegir la más sencilla de las últimas 4 igual-
dades y demostrarla. Este teorema es bien especı́fico y solo sirve para esos casos
mencionados, no le dé muchas vueltas.
Teorema 9.17 (Transformación de V.A. independientes). Ver Grynberg [1]
Transformaciones de variables aleatorias, pp. 19 y 20; o Maronna [2]. Dada
una familia de V.A. (Xi : i ∈ I) independiente, m ∈ Z + un entero tal que
1 < m < n, g1 : Rm → R y g1 : Rn−m → R funciones regulares, entonces
Y1 := g1 (X1 , . . . , Xm ) y Y2 := g2 (Xm+1 , . . . , Xn ) son V.A. independientes.
Nota 9.18 (Sobre independencia de transformaciones). Diremos en nuestro cur-
so que todas las transformaciones de variables aleatorias son regulares, entonces
si (X, Y ) independientes entonces (U, V ) = (g(X), h(Y )) serán independien-
tes. Estudiaremos en mayor detalle las transformaciones de variables aleatorias
dentro de algunos capı́tulos.

Ejercicios
Pueden hacer ejercicios 2.21 a 2.26. El 2.24 es optativo para PyE A, intentar
reconocer la función de densidad.

51
10. Momentos
En este capı́tulo simplemente se reordenan las definiciones y se resume
Grynberg[1], Variables Aleatorias: Momentos. Remitirse a la fuente para muchos
ejemplos y demostraciones de los teoremas.

10.1. Esperanza
Definición 10.1 (Esperanza). Sea X una V.A. unidimensional con distribución
µ, definimos: Z
E[X] := t · µ(dt)
R

ver Billingsley [7] [Link] VALUES

Teorema 10.2 (Definición clásica). Sea X una V.A. discreta (d), continua (c)
o mixta (m), vale:
P
(d) E[X] = x∈At(X) x · pX (x)
R
(c) E[X] = R x · fX (x)dx
d
P R
(m) E[X] = x∈At(X) x · P(X = x) + R x · dx FX (x) dx

La definición más frecuente de esperanza en libros de introducción a la proba-

bilidad es esta. Se consideró más elegante dar una definición única.
Teorema 10.3 (Esperanza de funciones de V.A. n-D). Sea X una V.A. discreta
(d), continua (c) o mixta (m); y sea g : Rn → R tal que g(X) también es una
V.A., vale:
P
(d) E[g(X)] = x∈At(X) g(x)pX (x)
R
(c) E[g(X)] = Rn g(x)fX (x)dx
P R∞ d

(m) E[g(X)] = x∈At(X) g(x)P(X = x) + −∞ g(x) dx FX (x) dx

Nota 10.4 (Sobre la esperanza de g(X)). Algunas consideraciones:

Se restrigen las variables mixtas al caso 1-D por la desidia de entrar en
derivadas parciales. Se podrı́a generalizar fácilmente.
Para calcular la esperanza de una marginal Xi tomar g(X) = Xi y usar
el teorema, no es necesario calcular la densidad marginal de Xi .
Para calcular la esperanza de Y = g(X) no es necesario calcular la distri-
bución de Y .
El último teorema incluye como caso particular a la definición clásica.

Teorema 10.5 (Esperanza a partir de FX ). Sea X una V.A. con función de

distribución FX , vale que:
Z ∞ Z 0
E[X] = [1 − FX (x)]dx − FX (x)dx
0 −∞

52
Teorema 10.6 (Propiedades). Vale que (para X o Xi con esperanza finita):
(1) Constantes: E[a] = a ∀a ∈ R
P P
(2) Linealidad: E[ ai Xi ] = ai E[Xi ]. En particular, para la combinación
lineal de dos variables E[aX + bY ] = aE[X] + bE[Y ]
Q Q
(3) Producto independiente: Si Xi son independientes, E[ Xi ] = E[Xi ]

(4) Truncada (condicionada): E[X|X ∈ A] = E[X·1{X∈A}]

P(X∈A)
Pn
(5) Probabilidades totales: E[X] = i=1 E[X|X ∈ Ai ]P(X ∈ Ai ) si Ai es una
partición de Rg(X)
Pn
(6) Probabilidades totales: E[g(X)] = i=1 E[g(X)|X ∈ Ai ]P(X ∈ Ai ) si Ai
es una partición de Rg(X)
Ejemplo 10.7 (Ejemplos de esperanza). Dar ejemplos de: función indicadora,
Bernoulli, dado común, dado cargado, uniforme, exponencial, Cauchy, ejercicio
2.2.

Ejercicios
PyE A: Pueden hacer ejercicios 3.1 a 3.3, 3.5 a 3.7, optativos 3.8 y 3.9, 3.10,
3.12 y 3.13.
PyE B: Pueden hacer ejercicios 3.1 a 3.13

10.2. Varianza
Definición 10.8 (Varianza). Sea X una V.A. con esperanza finita, definimos
la varianza de X como
var(X) := E (X − E[X])2

llamaremos desvı́o de X a p
σX := var(X)
Nota 10.9 (Sobre el desvı́o). Para aplicaciones fı́sicas o ingenieriles donde X
representa una magnitud fı́sica con su unidad de medida, σX es más fácil de
visualizar porque tiene las mismas unidades que la variable X y su esperanza
E[X], en cambio var(X) está con la unidad al cuadrado. En matemática es más
habitual trabajar con la varianza.
Teorema 10.10 (Fórmula para calcular V). Sea X una V.A. con esperanza y
varianza finita:
var(X) = E[X 2 ] − E2 [X]
Demostración. Basta con desarrollar el cuadrado del binomio y aplicar propie-
dades de lienalidad vistas
var(X) = E[(X − E[X])2 ] = E[X 2 + (E[X])2 − 2XE[X]] = · · ·
· · · = E[X 2 ] + (E[X])2 − 2E[X]E[X] = E[X 2 ] − (E[X])2

53
Teorema 10.11 (Propiedades de var). Vale que:
(1) Trato con constantes: var(aX + b) = a2 var(X) para todo a, b ∈ R
(2) Error cuadrático medio: ecm(X, c) := E[(X − c)2 ] = var(X) + (E[X] − c)2
para todo c ∈ R. En particular, tomando c = E[X] se minimiza el ecm.
Ejemplo 10.12 (Ejemplos de varianza). Dar los mismos ejemplos que para
esperanza.

Ejercicios
PyE A y B pueden hacer ejercicios 3.14 a 3.16.

10.3. Covarianza, ı́ndice de correlación

Definición 10.13 (Covarianza). Sean X e Y dos V.A. sobre el mismo espacio
de probabilidad con esperanza finita, llamaremos covarianza de X e Y a:

cov(X, Y ) := E [ (X − E[X]) · (Y − E[Y ]) ]

Teorema 10.14 (Fórmula para calcular cov). Si X e Y cumplen además E[X 2 ]

y E[Y 2 ] finitas, vale:

cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]

Demostración. La demostración simplemente es distribuir el producto de bino-

mios de la definición. La hipótesis de esperanza de los cuadrados finita permite
demostrar que E[XY ] es finita mediante la desigualdad |xy| ≤ (x2 + y 2 )/2.
Definición 10.15 (Matriz de covarianzas). Sea X una V.A. n-dimensional,
definimos la matriz cov por sus coordenadas:

covi,j := cov(Xi , Xj )

Si las esperanzas E[Xi2 ] son finitas, se pueden calcular las coordenadas con
la fórmula habitual covi,j = E[Xi Xj ] − E[Xi ]E[Xj ].
Para la matriz de covarianzas es muy habitual al notación de sigma mayúscu-
la Σ
Ejemplo 10.16 (Bernoulli conjunta). Dar en clase V.A. bernoulli 2-D con
probabilidades puntuales a, b, c, d.
Definición 10.17 (Coeficiente de correlación). Sea (X, Y ) un vector aleatorio
con covarianza, definimos su coeficiente de correlación:
cov(X, Y ) cov(X, Y )
ρX,Y := p =
var(X) · var(Y ) σX · σY

El coeficiente de correlación es un número con el mismo signo que la cova-

rianza, pero “estandarizado” al dividir por los desvı́os. El comportamiento de
una V.A. 2-D suele ser más fácil de comprender cualitativamente con el ρ que
con la cov.

54
Teorema 10.18 (Propiedades de cov y ρ). Sean X, Y, Z, Xi , Yi V.A. con espe-
ranza del cuadrado finita; a, b ∈ R se cumple:

(1) Varianza: cov(X, X) = var(X)

(2) Conmutativa: cov(X, Y ) = cov(Y, X)
(3) Distributiva: cov(X, Y + Z) = cov(X, Y ) + cov(X, Z)
Pm Pn Pm Pn
(4) Distributiva: cov( i=1 Xi , j=1 Yj ) = i=1 j=1 cov(Xi , Yj )

(5) Constantes: cov(aX, Y + b) = a · cov(X, Y ) = cov(X + b, aY )

(6) X, Y independientes ⇒ cov(X, Y ) = 0 (Nota 1: si existe). (Nota 2: no vale
la recı́proca en general)
(7) Varianza suma: var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )

(8) Varianza suma: var(aX + bY ) = a2 var(X) + b2 var(Y ) + 2 · a · b · cov(X, Y )

Pn Pn Pn
(9) Varianza suma: var( i=1 Xi ) = i=1 j=1 cov(Xi , Xj )
(10) Normales no correlacionadas: (X, Y ) normal bivariada y cov(X, Y ) = 0
⇒ X, Y independientes

(11) Bernoullis no correlacionadas: X ∼ B(p), Y ∼ B(r), cov(X, Y ) = 0 ⇒ X, Y

independientes
(12) Lı́mites para correlación: −1 ≤ ρ ≤ 1
Nota 10.19 (Interpretación). Covarianza (y correlación) positiva indica que
cuando X crece Y tiende a hacer lo mismo, y que cuando X decrece Y también
lo hace. Covarianza (y correlación) negativa indica lo contrario, cuando X va
para un lado Y va para el otro.
El hecho de que el ı́ndice de correlación ρ esté acotado en [−1, 1] hace que
su interpretación sea mucho más sencilla que la de la covarianza, por eso en
aplicaciones estadı́sticas es mucho más común buscar estimaciones de ρ.
A modo de ejemplo graficamos en la figura 1 muestras de un vector normal
bivariado con distinto valor de ρ. Valores cercanos a 1 o −1 indican una relación
lineal muy fuerte, donde los puntos se alejan poco de la recta de regresión;
valores intermedios indican que la nube de puntos muestra una tendencia lineal
pero con puntos más elejados, y valores cercanos a 0 indican poca o ninguna
relación lineal entre las variables. Para el caso particular de la normal bivariada,
ρ = 0 implica independiencia entre las variables. No se debe confundir ρ con la
pendiente de la recta de regresión, ρ se puede interpretar más como la intensidad
de la relación lineal que existe entre las variables.
Como último ejemplo, graficaremos en la figura 2 algunas simulaciones de
variables (muy arbitrarias) que no son independientes pero cuyo coeficiente de
correlación es nulo.

55
Figura 1: Normales bivariadas con distinto ρ

Figura 2: Variables no correlacionadas y no independientes

Ejercicios
PyE A y B pueden hacer ejercicios 3.17, 3.18, 3.20. PyE B: también puede pensar
el 3.19 (no aporta mucho).

10.4. Recta de regresión

Definición 10.20 (Recta de regresión). Sea (X, Y ) una V.A. bidimensional con
covarianza, definimos la recta de regresión de Y sobre X mediante su fórmula:

cov(X, Y )
ŷ(x) := (x − E[X]) + E[Y ]
var(X)

56
o, lo que es equivalente y más fácil de recordar:

x − E[X] ŷ − E[Y ]
y ∗ := ρx∗ x∗ = , y∗ =
σX σY
Notar que en la fórmula aparecen la función ŷ, la variable x, y algunos
momentos de las V.A., se trata de la expresión de una recta sin nada aleatorio.

10.5. Desigualdades, Ley débil de grandes números

Teorema 10.21 (Desigualdad de Cauchy-Schwarz). Ver [1], Variables Aleato-
rias, Momentos
Teorema 10.22 (Gran desigualdad de Chebychev). Ver [1], Variables Aleato-
rias, Momentos

Teorema 10.23 (Desigualdad de Markov). Sea X una V.A. no negativa (i.e.

P(X ≥ 0) = 1), a ∈ R, a > 0 un número positivo, se cumple:

E[X]
P(X ≥ a) ≤
a
Demostración. Hacer el gráfico, recordar cómo calcular esperanza a partir de
FX .

Teorema 10.24 (Desigualdad de Markov cuadrada). Sea X una V.A., a ∈

R, a > 0 un número positivo, se cumple:

E[X 2 ]
P(|X| ≥ a) ≤
a2
Demostración. Inmediata a partir del teorerma anterior. Ver Billingsley [7] sec-
ción 1.5 fórmula 5.31

Teorema 10.25 (Pequeña desigualdad de Chebychev). Sea X una V.A. de

varianza finita, a ∈ R, a > 0 un número positivo, α ∈ R, α > 0 también
positivo, se cumple:
var(X)
P(|X − E[X]| ≥ a) ≤
a2
o, equivalente:
1
P(|X − E[X]| ≥ α · σX ) ≤ 2
α
Teorema 10.26 (Ley débil de los grandes números, WLLN). Sea X1 , X2 . . .
una sucesión de V.A. independientes e idénticamente distribuidas (i.e. ensayos
1
Pn con varianza finita . Sea Sn , n ≥ 1
independientes de un mismo experimento)
la sucesión de sumar parciales Sn := i=1 Xi . Para todo ϵ > 0 vale que:

Sn
lı́m P − E[X1 ] > ϵ = 0
n→∞ n
1 Varianza finita para X no es una hipótesis necesaria, se pide para poder demostrar el
i
teorema mediante Chebychev (pequeña). Si se quiere la demostración general preguntarle a
un matemático

57
Demostración. Por linearidad de esperanza y por tener todas las V.A. la misma
esperanza:
P
Sn E [ Xi ] 1X 1
E = = E[Xi ] = nE[X1 ] = E[X1 ]
n n n n

Como además las variables son independientes se anulan las cov y se tiene:

Sn 1 X 1 var[X1 ]
var = 2 var(Xi ) = 2 nvar[X1 ] =
n n n n

Aplicando Chebychev (pequeña):

Sn var(X1 )
P − E[X1 ] > ϵ ≤
n n · ϵ2

luego tomar lı́mite n → ∞ y listo.

– CONSULTAR DIFERENCIA ENTRE > EN WLLN Y ≥ EN CHEBY-
CHEV –
Nota 10.27 (Alta nota). Con este teorema los axiomas ya no solo atrapan
la idea de frecuencia relativa en el sentido de que permiten modelarla, sino
que además se demuestra que (con ciertas hipótesis) la frecuencia relativa Sn /n
tiende a la probabilidad a medida que aumenta la cantidad de ensayos.
Nota 10.28 (Sobre WLLN). Se llama ley débil porque hay una fuerte. La ley
fuerte de los grandes números implica la débil, pero es de más difı́cil comprensión
y mucho más difı́cil demostración. Ver Grimmet-Stirzaker [5].

Ejercicios
PyE B pueden hacer ejercicios 3.21 a 3.26

58
11. Transformaciones de V.A.
Si X es una V.A. y g una función, en muchas aplicaciones nos intersará saber
cómo se comporta Y = g(X). Trateremos en este capı́tulo de dar teoremas útiles
(métodos) para hallar la distribución de Y a partir de la distribución de X, tanto
en casos 1-dimensionales como n-dimensionales.

11.1. Definiciones y aclaraciones previas

Teorema 11.1 (Transformaciones). Sea X ∈ Rm una variable aleatoria, sea
g : D ∈ Rm → Rn una función tal que Rg(X) ⊂ D. Entonces Y := g(X) está
bien definida, y será una V.A. si y sólo si cumple con lo que tiene que cumplir
cualquier V.A., i.e.:

{ω ∈ Ω : Y = g(X(ω)) ≤ y} ∈ A ∀y ∈ Rn

Convención 11.2 (Transformaciones). Para todas las transformaciones que

usemos en el curso, si X es variable aleatoria Y = g(X) será variable aleatoria.
–Agregar bonitos gráficos–
Definición 11.3 (Inversa de una región). Sea g : D ∈ Rm → Rn una transfor-
mación, y S ⊂ Rn una región (en el destino). Definimos su inversa o preimagen:

g −1 (S) := {x ∈ D : g(x) ∈ S}

11.2. Teoremas para transformaciones de V.A.

Teorema 11.4 (Método de eventos equivalentes). Sean X una variable aleatoria
m-dimensional, g : D ∈ Rm → Rn una transformación, Y := g(X) (una variable
aleatoria n-dimensional), y S ⊂ Rn una región en el espacio destino, entonces:

P (Y ∈ S) = P(X ∈ g −1 (S))
Demostración. Inmediata, pues el evento Y ∈ S refiere a los mismos ω ∈ Ω que
el evento X ∈ g −1 (S) y por lo tanto tiene asignada la misma probabilidad.
Teorema 11.5 (Caso particular - FY (y)). Tomemos como caso particular S† =
{t : t ≤ y}, tendremos P(Y ∈ S† ) = P(Y ≤ y) = FY (y) lo que nos permite
calcular la función de distribución de Y aplicando el teorema:

FY (y) = P X ∈ g −1 ({t : t ≤ y})

Teorema 11.6 (Caso particular - Discretas pY (y)). Sea X variable aleatoria

discreta, Y = g(X) con g inversible por regiones en Rg(X), vale que:
X
pY (y) = pX (x)
x:g(x)=y

O, equivalente X
pY (y) = pX (x) x=gi−1 (y)
i

59
donde (con cierto abuso de notación) la sumatoria recorre las preimágenes
que corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas
preimágenes x como funciones gi−1 (y).
Demostración. Tomamos S = {y} (un conjunto con un único punto), tendremos
P(Y ∈ S) = P(Y = y) = P(X ∈ g −1 ({y}) lo que nos permite calcular la función
de probabilidades de Y aplicando el teorema.
Teorema 11.7 (Caso particular lı́mite - Continuas fY (y)). Sea X variable alea-
toria continua, Y = g(X) con g inversible por regiones en Rg(X), g : Rg(X) ⊂
Rm → Rm (el espacio destino tiene la misma dimensión que el de origen) vale
que:
X fX (x)
fY (y) =
|Jg (x)|
x:g(x)=y

o equivalente:
X fX (x)
fY (y) =
i
|Jg (x)| x=gi−1 (y)

donde (con cierto abuso de notación) la sumatoria recorre las preimágenes que
corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas preimáge-
nes x como funciones gi−1 (y). Usando el Jacobiano de la transformación inversa
podemos escribir:
X
fY (y) = fX (x) x=g−1 (y) |Jg−1 (y)|
i i
i

Las matrices jacobianas las definimos por sus coordenadas

∂(gi−1 )m (y)

∂gm (x)
Jg = Jg−1 =
m,n ∂xn i
m,n ∂yn

Demostración. — Idea de — Aceptemos que podemos aproximar un área pe-

queña por un rectángulo (m-dimensional)

∆y

P Y ∈y± = fY (y) · ∆y
2
∆y
Tomando como región S = y ± 2 tendremos, por eventos equivalentes:

∆y ∆y

X X ∆xi
P Y ∈y± = P X∈ gi−1 y± = P X ∈ xi ±
2 i
2 i
2

donde la sumatoria recorre las distintas preimágenes. Haciendo la misma apro-

ximación para X nos queda
X
fY (y) · ∆y = fX (x) · ∆x
i

Al pasar dividiendo ∆y y tomar lı́mite aparece el jacobiano, que es la medida

en que la función g estira o achica áreas.

60
Teorema 11.8 (Box-Muller). Sean U1 , U2 variables aleatorias independien-
tes idénticamente distribuidas con distribución U[0, 1). Definimos las siguientes
transformaciones: p
R = −2 log(U1 ) Θ = 2πU2
(Z1 , Z2 ) = (R cos Θ, R sin Θ)
Vale que:
R2 ∼ E(1/2) = Γ(1, 1/2) = χ22
R ∼ Ray(1)
Θ ∼ U[0, 1)
(R, Θ) independientes
Z1 , Z2 V.A.I.I.D. con distribución N (0, 1)
Demostración. Vayamos paso a paso:

S = R2 = −2 log(U1 ), la transformación g(u) = −2 log(u) es biyectiva en

1
el soporte de U1 y tiene inversa g −1 (s) = e− 2 s . Aplicando la regla del
jacobiano:
fU (u) 1 1
fS (s) = = e− 2 s 1{s > 0}
|dg/du| g−1 (s) 2
√ √
R = S, la transformación g(s) = s es biyectiva en el soporte de S y
tiene inversa g −1 (r) = r2 . Aplicando la regla del jacobiano:
fS (s) 1 2
fR (r) = = re− 2 r 1{r > 0}
|dg/ds| g −1 (r)

Θ = 2πU2 , la transformación g(u) = 2πu es biyectiva en el soporte de U2

y tiene inversa g −1 (t) = 1/(2π). Aplicando la regla del jacobiano:
fU (u) 1
fΘ (t) = = 1{0 < t < 2π}
|dg/du| g −1 (t) 2π

(Z1 , Z2 ) = (R cos Θ, R sin Θ), la transformación g(r, t) = (r cos t, r sin t) es

biyectiva en el soporte de (R, Θ) y tiene inversa que no necesitaremos cal-
cular (verla en [Link]
Aplicando la regla del jacobiano:
f(R,Θ) (r, t)
f(Z1 ,Z2 ) (z1 , z2 ) =
|Jg(r,t) | g −1 (z1 ,z2 )

Por teorema de transformaciones de V.A. con funciones regulares, como

R = h1 (U1 ) y Θ = h2 (U2 ) se cumple (R, Θ) independientes, entonces su
densidad conjunta será la densidad producto f(R,Θ) (r, t) = fR (r)fΘ (t).
El jacobiano de la transformación
cos(t) −r sin(t)
Jg(r,t) = =r
sin(t) r cos(t)

61
volviendo...
1 2
!
re− 2 r
f(Z1 ,Z2 ) (z1 , z2 ) = 1{r > 0, 0 < t < 2π}
r2π
g −1 (z1 ,z2 )

no necesitamos encontrar la inversa de g pues r2 = z12 + z22 es el único

reemplazo que necesitamos hacer. La indicadora se desvanece pues r > 0
vale para cualquier par (z1 , z2 ), y t no entra en la ecuación. Obtenemos:
1 − 1 (z12 +z22 ) 1 1 2 1 1 2
f(Z1 ,Z2 ) (z1 , z2 ) = e 2 = √ e− 2 z1 √ e− 2 z2
2π 2π 2π

Teorema 11.9 (Mı́nimo y máximo de exponenciales independientes). Sean

X1 y X2 dos variables aleatorias independientes con distribuciones exponen-
ciales de intensidades λ1 y λ2 respectivamente. Sean U := mı́n(X1 , X2 ), V :=
máx(X1 , X2 ), W = V − U , J = 1 {U = X1 } + 2 · 1 {U = X2 }, vale que:
(a) U ∼ E(λ1 + λ2 )
λ1 λ2
(b) P(J = 1) = λ1 +λ2 , P(J = 2) = λ1 +λ2

(c) U , J son variables aleatorias independientes

(d) fW (w) = P(J = 1)fX2 (w) + P(J = 2)fX1 (w)
(e) U , W son variables aleatorias independientes
Demostración. Ver Grynberg [1], Transformaciones de variables aleatorias. To-
memos un número u > 0, el evento {J = 1 ∩ U > u} es equivalente a {X2 ≥
X1 > u}. Podemos calcular su probabilidad:
Z Z
P(J = 1 ∩ U > u) = f(X1 ,X2 ) (x1 , x2 )dx1 dx2 = · · ·
x2 ≥x1 >u
Z ∞ Z ∞
−λ1 x1 −λ2 x2
··· = λ1 e λ2 e dx2 dx1
u x1
Z ∞
··· = λ1 e−λ1 x1 e−λ2 x1 dx1
u
agrupando los exponentes y completando dentro y fuera la integral con factores
convenientes Z ∞
λ1
··· = (λ1 + λ2 )e−(λ1 +λ2 )x1 dx1
λ1 + λ2 u
dentro de la integral nos queda la densidad de una variable exponencial, luego
λ1
P(J = 1 ∩ U > u) = e−(λ1 +λ2 )u
λ1 + λ2
Usando el caso particular de u = 0, sabemos que U > 0 ocurre con probabi-
lidad 1 pues es el mı́nimo de dos variables positivas, luego
λ1
P(J = 1 ∩ U > 0) = P(J = 1) =
λ1 + λ2

62
y por complemento
λ2
P(J = 2) =
λ1 + λ2
Por teorema de factorización, al factor de la derecha en la expresión de
P(J = 1 ∩ U > u) no le queda otra que ser P(U > u), i.e.:

P(U > u) = SU (u) = e−(λ1 +λ2 )u si u > 0

lo que prueba que U y J son independientes, y que U es una variable E(λ1 + λ2 )

por tener la función de supervivencia correspondientes a una exponencial de ese
parámetro.
Hasta aquı́ ya demostramos los primeros 3 incisos de teorema. Ahora nece-
sitamos hacer cambios de variable, buscaremos fU,V y luego fU,W por método
del Jacobiano.
Definimos g : [0, ∞) × [0, ∞) → R2 , g(x1 , x2 ) = (mı́n(x1 , x2 ), máx(x1 , x2 )),
luego podemos escribir la transformación:

(U, V ) = g(X1 , X2 )

Notar que los puntos del primer cuadrante sobre el cual está definida g los
manda a parar al segundo octante, es decir el ángulo donde v > u > 0, y que
cada punto de la imagen tiene 2 preimágenes: (x1 , x2 ) = g1−1 (u, v) = (u, v) y
(x1 , x2 ) = g2−1 (u, v) = (v, u). Usando la regla del Jacobiano:

fU,V (u, v) = fX,Y (u, v)|Jg−1 | + fX,Y (v, u)|Jg−1 | 1 {0 < u < v}
1 2

reemplazando la densidad y notando que los jacobianos son unitarios

fU,V (u, v) = λ1 λ2 e−(λ1 u+λ2 v) + e−(λ1 v+λ2 u) 1 {0 < u < v}

Ahora definimos h : {(u, v) : 0 < u < v} → R2 , h(u, v) = (u, v − u), podemos

escribir la transformación:

(U ∗ , W ) = h(U, V )

(donde U ∗ es la misma variable aleatoria que U , se el asterisco para distinguir

la U del espacio origen con la U ∗ del espacio destino).
Notar que a los puntos del segundo octante h los envı́a a todo el primer
cuadrante, y para cada punto de la imagen existe una sola preimagen (u, v) =
h−1 (u∗ , w) = (u∗ , u∗ + w). Aplicando regla del Jacobiano:

fU ∗ ,W (u∗ , w) = f( U, W )(u∗ , u∗ + w)|Jh− 1 |

reemplazando la densidad y notando que el jacobiano también es unitario

fU ∗ ,W (u, w) = λ1 λ2 e−(λ1 u+λ2 (u+w)) + e−(λ1 (u+w)+λ2 u) 1 {u > 0, w > 0}

factorizamos por un lado lo que depende de u y por otro lo de w

fU ∗ ,W (u, w) = λ1 λ2 e−(λ1 +λ2 )u e−λ2 w + e−λ1 w 1 {u > 0, w > 0}

63
multiplicamos y dividimos por (λ1 + λ2 ) y acomodando un poco:

fU ∗ ,W (u, w) = (λ1 + λ2 )e−(λ1 +λ2 )u 1 {u > 0} ·

λ1 −λ2 w λ2 −λ1 w
· λ2 e + λ1 e 1 {w > 0}
λ1 + λ2 λ1 + λ2
La factorización demuestra que U y W son independientes, y queda explı́cito

λ1 −λ2 w λ2 −λ1 w
fW (w) = λ2 e + λ1 e 1 {w > 0}
λ1 + λ2 λ1 + λ2

Ejercicios
PyE A: pueden hacer ejercicios 4.1 a 4.7; 4.18 a 4.20.
PyE B: pueden hacer completa guı́a 4.

64
12. Condicionales
En este capı́tulo se reordenan los conceptos de Grynberg [1] Condicionales.
Se intenta minimizar la cantidad de definiciones para aprovechar los teoremas
ya dados en los capı́tulos anteriores. Para ejemplos y demostraciones leer el
borrador mencionado. Se dan todas las definiciones para V.A. en 2 dimensiones,
se podrı́a generalizar sin problema a n-dimensional, teniendo en cuenta que al
condicionar a Xi = xi se reduce la dimensión en 1.

12.1. Variables condicionales

Definición 12.1 (V.A. Y condicional a X = x). Sean (X, Y ) una variable
aleatoria 2-dimensional discreta (d) o continua (c). Sea x ∈ Rg(X), definimos
la variable aleatoria Y |X = x (se lee Y concionada a X = x, o Y dado que
X = x) a partir de su función de probabilidad (d) o función de densidad (c):

pX,Y (x, y)
pY |X=x (y) = (d)
pX (x)
fX,Y (x, y)
fY |X=x (y) = (c)
fX (x)
Alternativamente, si y ∈ Rg(Y ) podemos definir la variable aleatoria X|Y =
y a partir de su función de probabilidad o densidad:

pX,Y (x, y)
pX|Y =y (x) = (d)
pY (y)
fX,Y (x, y)
fX|Y =y (x) = (c)
fY (y)
Ejercicio 12.2 (Sobre Y |X = x). Demostrar que la definición anterior existe
Ejemplo 12.3 (Ejemplo condicionales). Hacer ejemplo con urna 3 verdes, 2 ro-
jas, 2 azules; extraer 2 sin reposición. Hacer ejemplo uniforme sobre un triángulo
o sobre una región como la del parcial.
Teorema 12.4 (Factorización - Espada del Augurio). Sea (X, Y ) discreta (d)
o continua (c), en todos los puntos del rango la siguiente factorización existe y
es única:
pX,Y (x, y) = pY |X=x (y)pX (x)
fX,Y (x, y) = fY |X=x (y)fX (x)
(también vale factorizar con la condicional de X|Y = y y la marginal de Y )
Demostración. Pasar multiplicando y completar los huecos
Teorema 12.5 (Fórmula de probabilidad total ampliada). Sea Y |X = x dis-
creta (d) o continua (c), dada la marginal de X podemos reconstruir la marginal
de Y : X
pY (y) = pY |X=x (y)pX (x)
x∈Rg(X)
Z
fY (y) = fY |X=x (y)fX (x)dx
Rg(X)

65
Demostración. En la definición de densidad marginal reemplazar la conjunta
por el producto de condicional y marginal, restringir la operación al soporte
para evitar problemas técnicos
Notar que la versión discreta es la fórmula de probabilidades totales de siem-
pre, pero ahora ampliamos el teorema al caso continuo.

Ejercicios
PyE A: Pueden hacer ejercicios 5.1 a 5.3, 5.4 optativo (ver normal bivariada en
tabla de distribuciones), 5.5. PyE B: Pueden hacer ejercicios 5.1 a 5.6.

12.2. Modelos discreto continuos

Definición 12.6 (V.A. Mezcla). Sea M una variable aleatoria discreta con
Rg(M ) = M (finito o numerable). Sea (Xm : m ∈ M) una familia de variables
aleatorias independientes de M . Definimos X := XM (notar subı́ndice aleato-
rio), la llamaremos “Mezcla de variables aleatorias Xm obtenida mediante la
mezcladora M ”.
Convención 12.7 (Mezcla tı́pica). En general, Rg(M ) = 1, 2 . . . n. Para des-
cribir la variable mezcla, escribiremos

 X1 con probabilidad p1
 n
X2 con probabilidad p2
 X
X= donde pi = 1
 ...
 i=1
Xn con probabilidad pn


Teorema 12.8 (FX de variable mezcla). Sea X = XM variable mezcla como

la definimos, vale: X
FX (x) = FXm (x)pM (m)
m∈M

Demostración.
X
FX (x) = P(XM ≤ x) = P (XM ≤ x|M = m)P (M = m) = . . .
m∈M
X X
... = P(Xm ≤ x|M = m)P(M = m) = FXm (x)P(M = m)
m∈M m∈M

Teorema 12.9 (fX o pX de variable mezcla). Sea X = XM variable mezcla

como la definimos, con las Xi discretas o continuas, vale:
X
pX (x) = pXm (x)pM (m)
m∈M
X
fX (x) = fXm (x)pM (m)
m∈M

Si las Xi son mixtas o son algunas discretas y algunas continuas este teorema
no sirve, en tal caso usar la función de distribución.

66
Ejemplo 12.10 (Ejemplo de mezcla). Resolver mezcla de dos uniformes. Mos-
trar gráfico de funciones de densidad originales y mezcla. Dejar servido para
hacer un bayes.

Definición 12.11 (Bayes discreto-continuo o Bayes para mezcla). Sea X = XM

variable mezcla como la definimos, con Xm absolutamente continuas. Definimos:

fXm (x)pM (m) fXm (x)pM (m)

P(M = m|X = x) = pM |X=x (m) := =P
fX (x) m∈M fXm (x)pM (m)

Nota 12.12 (Sobre bayes para mezcla). Dos consideraciones importantes:

Se puede interpretar la definición anterior como una ampliación de la
definición de P(B|A) para algunos casos donde P(A) = 0. Usar la misma
notación para escribir dos cosas distintas quizás no sea del todo feliz.
La definición anterior es consistente con cierta forma de llevar al lı́mite la
definición tradicional de probabilidad condicional. Ver Grynberg [1]

Ejercicios
PyE A: Pueden hacer ejercicios 5.7 y 5.9.
PyE B: Pueden hacer ejercicios 5.7 a 5.9.

12.3. Momentos y función de regresión

y para la varianza, si la esperanza del cuadrado es finita:

var(Y |X = x) = E[Y 2 |X = x] − E2 [Y |X = x]

Teorema 12.14 (Fórmula de probabilidad total para esperanza). Sea Y |X = x

discreta (d) o continua (c), y dada la marginal de X, podemos calcular su
esperanza: X
E[Y ] = E[Y |X = x]pX (x)
x∈Rg(X)
Z
E[Y ] = E[Y |X = x]fX (x)dx
Rg(X)

Demostración. En la fórmula clásica para esperanza reemplazar la conjunta por

el resultado del teorema anterior, restringir la operación al soporte para evitar
problemas técnicos

67
Teorema 12.15 (Momentos de mezcla). Sea X = XM V.A. mezcla como la
definimos en el capı́tulo, se demuestra fácilmente con un tema que veremos a
continuación: X
E[X] = E[Xm ]pM (m)
m∈M
X X
var(X) = var(Xm )pM (m) + (E[Xm ] − E[X])2 pM (m)
m∈M m∈M

Nota 12.16 (Nota mecánica). Ya mencionamos que esperanza y varianza son

el baricentro y el momento de inercia baricéntrico de la densidad. Estas fórmu-
las son análogas a calcular el baricentro de una sección compuesta por varias
secciones, y el momento de inercia baricéntrico mediante Steiner.
Definición 12.17 (Función de regresión). Sea (X, Y ) una variable aleatoria
2-dimensional, definimos la función de regresión de Y sobre X, φ : Rg(X) → R,
de la siguiente manera:
φ(x) := E[Y |X = x]
Definición 12.18 (Función *tridente*). Sea (X, Y ) una variable aleatoria 2-
dimensional, definimos la función tridente (varianza de regresión) de Y sobre
X, ψ : Rg(X) → R, de la siguiente manera:

ψ(x) := var(Y |X = x)

Ejercicios
PyE A: Pueden hacer ejercicios 5.10 inciso a, 5.17 inciso a, y optativo 5.13 (ver
ejemplo a continuación).
PyE B: Pueden hacer ejercicios 5.10, 5.11, 5.13 (ver ejemplo a continuación),
5.14, 5.17.a.

Ejemplo 12.19 (Rata sin memoria en laberinto). Una rata está atrapada en
un laberinto. Inicialmente puede elegir una de tres sendas. Si elige la primera se
perderá en el laberinto y luego de t1 = 12 minutos volverá a su posición inicial;
si elige la segunda volverá a su posición inicial luego de t2 = 14 minutos; si elige
la tercera saldrá del laberinto luego de t3 = 9 minutos. En cada intento, la rata
elige con igual probabilidad cualquiera de las tres sendas. Calcular la esperanza
del tiempo que demora en salir del laberinto.
Resolución Sea T el tiempo total que tarda la rata en escapar, y Xi la
puerta que elige la rata en el intento i de escape. La técnica para resolver este
ejercicio será pensar cómo se distribuye el tiempo T si lo condicionamos al
resultado de la primera elección de la rata X1 .
Este tipo de análisis será útil en problemas que presentan la caracterı́stica
de regeneración, informalmente quiere decir que si pasan determinadas cosas el
problema vuelve a su estado inicial (o vuelve a algún estado). En este caso, cada
vez que se elija la puerta 1 o 2 la rata vuelve a un estado inicial, por viendo a
futuro lo que le falta para escapar no depende de cuánto tiempo lleva perdida,
da lo mismo si recién inicia o si ya hizo 500 malas elecciones.

68
Volviendo, si elige la puerta número 1, la rata consume t1 y vuelve al labe-
rinto, donde lo que le falta para escapar se distribuye igual que si empezara el
problema de cero. Si elige la puerta número 2 consume t2 y nuevamente lo que
le falta para escapar se distribuye igual que si empezara el problema de cero.
Y si elige la puerta 3 tarda t3 y se escapa. Podemos escribir eso formalmente
como:

(T |X1 = 1) ∼ t1 + T
(T |X1 = 2) ∼ t2 + T
(T |X1 = 3) = t3
(si le hace ruido ver T a ambos lados de la relación, recuerde que el sı́mbolo ∼
no significa igual, sino que lo que está a la izquierda tiene la misma distribución
que lo que está a la derecha)
Podemos resolver el ejercicio aplicando FPT para esperanzas:

E[T ] = E[T |X1 = 1]pX1 (1) + E[T |X1 = 2]pX1 (2) + E[T |X1 = 3]pX1 (3)

reemplazando:

E[T ] = E[T + t1 ]pX1 (1) + E[T + t2 ]pX1 (2) + E[t3 ]pX1 (3)

aplicando linearidad de esperanza y que las puertas tienen probabilidad 1/3:

1 1 1
E[T ] = (E[T ] + t1 ) + (E[T ] + t2 ) + t3
3 3 3
pasamos todos los términos con E[T ] para la izquierda

2 1 1 1
E[T ] 1 − = t1 + t2 + t3
3 3 3 3

termina:
E[T ] = t1 + t2 + t3 = 12 + 14 + 9 = 35

69
13. Esperanza condicional
13.1. Presentación
Este es probablemente el tema más difı́cil conceptualmente que veremos
en el curso (don’t panic: las cuentas son muy fáciles). Intentaremos dar una
descripción lo más clara posible, para entenderlo bien se deben leer libros que
escapan el alcance del curso (y el conocimiento del que escribe) como [7].
Comencemos describiendo el problema. Tenemos (X, Y ) una variable aleato-
ria 2-dimensional sobre un espacio de probabilidad (Ω, A, P). En una realización
del experimento se puede observar o medir X, y a partir de ello quiero poder
(en algún sentido) aproximar la variable Y desconocida (pero realizada) con una
función de X a la que llamaremos φ(X).
Dar algún ejemplo como caldera donde mido temperatura y quiero inferir
sobre la presión. Hacer esquema conceptual.
Definición 13.1 (V.A. esperanza condicional). Sea (X, Y ) una variable aleato-
ria 2-dimensional con E[|Y |] < ∞. Llamaremos esperanza condicional de Y dada
X, a la que escribiremos E[Y |X], a cualquier variable aleatoria φ(X) (transfor-
mada de X con φ : R → R medible) tal que cumpla la siguiente ecuación
funcional:

E[φ(X) · h(X)] = E[Y · h(X)] ∀h : R → R medible y acotada

NOTA MECÁNICA: Ecuaciones funcionales similares se encuentran al
resolver problemas variacionales por métodos numéricos.

Teorema 13.2 (Existencia de la esperanza condicional). Muy complicado, creo

que está en Billingsley [7] Section 34. En los problemas del curso siempre existirá
Teorema 13.3 (Unicidad de la esperanza condicional). Si φ1 y φ2 son solucio-
nes de la ecuación funcional, las mismas son iguales a.s. (almost surely), esto es:
P (φ1 (X) = φ2 (X)) = 1. Entre nosotros diremos que la esperanza condicional
es única. También ver Billingsley [7] Section 34
Teorema 13.4 (Importantı́simas propiedades de la esperanza condicional). Se
cumplen las hipótesis para definirla, vale:
1. Fórmula de esperanza total:

E[E[Y |X]] = E[Y ]

2. Funciones de X salen como constantes (propiedad pass trough):

E[g(X) · Y |X] = g(X) · E[Y |X]

3. Si X e Y son independientes, la V.A. esperanza condicional degenera en

constante:
E[Y |X] = E[Y ]

Demostración. Se demuestran en forma sencilla a partir de la definición y eli-

giendo inteligentemente la función h, ver Grynberg [1], Condicionales.

70
Teorema 13.5 (Cálculo de la V.A. esperanza condicional). —Si el cuatrimes-
tre viene apurado, se usa este teorema como definición, siguiendo a Grimmet-
Stirzaker [5]— Se cumplen las hipótesis para definirla, la función de regresión
φ(x) = E[Y |X = x] resuelve la ecuación funcional, vale entonces:

E[Y |X] = φ(x)|x=X = φ(X)

Demostración. Separar en caso discreto o continuo. Reemplazar en la ecuación

funcional φ por la sumatoria o integral de cálculo de la esperanza condicional
de Y dado X = x y en unos pasos se prueba que φ es solución.
Teorema 13.6 (Más propiedades de la V.A. esperanza condicional). Valen:
1. Linealidad: E[aY1 + bY2 |X] = aE[Y1 |X] + bE[Y2 |X]
2. *Monotonı́a: Y1 ≤ Y2 ⇒ E[Y1 |X] ≤ E[Y2 |X]

3. *Jensen: g : R → R convexa y E[|Y |] < ∞, E[|g(Y )|] < ∞ enton-

ces: g(E[Y |X]) ≤ E[g(Y )|X] y en particular, si E[Y 2 ] < ∞ entonces
E[Y |X]2 ≤ E[Y 2 |X].
NOTA: En clase solo daremos linealidad, no monotonı́a ni Jensen.

Definición 13.7 (V.A. varianza condicional). Con las mismas hipótesis que
definimos E[Y |X] y además E[Y 2 ] < ∞ definimos la varianza condicional de Y
dado X:
var(Y |X) := E[Y 2 |X] − (E[Y |X])2
Teorema 13.8 (Cálculo de la V.A. varianza condicional). Si está definida,
la varianza condicional se obtiene especificando la función *tridente ψ(x) =
V (Y |X = x) en la variable aleatoria X:

var(Y |X) = ψ(X)

Teorema 13.9 (Pitágoras). Si está definida la varianza condicional:

var(Y ) = E[var(Y |X)] + var(E[Y |X])

Demostración. Se puede demostrar a partir de cierta interpretación geométrica

de las definiciones dadas en este capı́tulo. Ver Grynberg [1] Condicionales
Nota 13.10 (Naturaleza de las cosas). Para refrescar:

X, Y , (X, Y ): variables aleatorias

E[X], var(X): números
E[Y |X = x], var(Y |X = x): funciones

E[Y |X], var(Y |X): variables aleatorias (transformaciones de X)

Y |X: no la definimos en el curso
Cachalote, muerciélago: animales

71
13.2. Iterpretación geométrica
Seguiremos la interpretación geométrica de [1] Condicionales, subtı́tulo Pre-
dicción, aunque cambiando algunos nombres de elementos y reordenando los
conceptos. La idea es definir ciertos elementos, mostrar que estamos en un es-
pacio vectorial, y a partir de lo que sabemos de álgebra ver que la esperanza
condicional es una proyección ortogonal.
Definición 13.11 (Definiciones varias). Sean (Ω, A, P ) un e.p., definimos:

V := {X : X : Ω → R, X es variable aleatoria, V (X) < ∞}

HX := {h(X) : h : R → R, h(X) es variable aleatoria., E[(h(X))2 ] < ∞}
⟨X, Y ⟩ := E[X · Y ]
p p
||X|| := ⟨X, X⟩ = E[X 2 ]
p
d(X, Y ) := ||X − Y || = E[(Y − X)2 ]
En palabras, V son todas las variables aleatorias en el espacio de probabilidad
de varianza finita, HX son todas las transformaciones posibles de X tal que
esa transformación sea variable aleatoria de varianza finita, y luego definimos
algunas operaciones (producto interno, módulo, distancia) para las variables
aleatorias.
Teorema 13.12 (Sobre las definiciones anteriores). Vale que:
V es un espacio vectorial (con la suma y producto por escalar usuales).
HX es un subespacio de V

⟨X, Y ⟩ es un producto interno en V

||X|| es una norma en V
d(X, Y ) es una distancia en V

Demostración. Demostraciones a cargo del lector, se asume que tiene co-

nocimientos básicos de álgebra lineal.

Teorema 13.13 (Predictor). Sean X, Y V.A. sobre un e.p. tales que E[Y 2 ] <
∞, y sea φ(X) = E[Y |X] la esperanza condicional de Y dado X. Vale que φ(X)
es la proyección ortogonal de Y sobre el subespacio HX .

Demostración. Vamos por partes

1. Primero demostremos que φ(X) ∈ HX usando la hipótesis E[Y 2 ] < ∞ y

la desigualdad de Jensen (que no dimos en clase por ser muy técnica)

E[φ(X)2 ] = E[E[Y |X]2 ] ≤ E[E[Y 2 |X]] = E[Y 2 ] < ∞

como es función de X y cumple la condición sobre la esperanza del cua-

drado φ(X) ∈ HX

72
2. Ahora probemos a partir de la ecuación funcional que define la esperanza
condicional que se trata de la proyección.
Si φ(X) es la p.o. de Y sobre HX , el vector que va de una V.A. a la otra
debe ser perpendicular al subespacio, esto es Y − φ(X) ⊥ HX . Partamos
de la ecuación funcional

E[φ(X)h(X)] = E[Y h(X)] ∀h

pasamos restando

E[Y h(X)] − E[φ(X)h(X)] = 0

por linearidad de esperanza

E[(Y − φ(X))h(X)] = 0

lo que es equivalente a escribir, usando el producto interno que definimos

⟨Y − φ(X), h(X)⟩ = 0 ∀h

lo que significa que es perpendicular al subespacio

Por lo tanto, podemos interpretar a φ(X) = E[Y |X] como la función de

X que más se acerca a Y (en el sentido de distancia que definimos) por ser
φ(X) la proyección ortogonal de Y . La esperanza condicional es entonces una
aproximación óptima o el mejor predictor.
Teorema 13.14 (Pitágoras II). Ya enunciamos, ahora demostraremos:

V (Y ) = E[V (Y |X)] + V (E[Y |X])

Demostración. Por definición de varianza, y usando la norma en V que definimos

podemos escribir:
V (Y ) = E[(Y − E[Y ])2 ] = . . .
sumamos y restamos φ(X) y agregamos paréntesis convenientemente

. . . = E [(Y − φ(X)) + (φ(X) − E[Y ])]2 = . . .

abrimos el binomio

. . . = E (Y − φ(X))2 + (φ(X) − E[Y ])2 + 2(Y − φ(X))(φ(X) − E[Y ]) = . . .

. . . = E[(Y −φ(X))2 ]+E[(φ(X)−E[Y ])2 ]+2E[Y φ(X)−Y E[Y ]−φ(X)2 +φ(X)E[Y ]]

Con paciencia se puede demostrar que:
E[(Y −φ(X))2 ] = E[V (Y |X)] (expresar como E[E[(Y −φ(X))2 |X]], luego
abrir el cuadrado y usar propiedades de esperanza condicional)
E[(φ(X)−E[Y ])2 = V (E[Y |X]) (este es casi inmediato, notar que E[φ(X)] =
E[Y ] y aplicar definición de varianza)

73
el tercer término se anula (de nuevo usar propiedades de esperanza condi-
cional)

queda entonces por resultado el teorema de pitágoras.

Gráficamente, podemos pensar HX como un plano (en el gráfico el plano ho-
rizontal); a las constantes como una recta dentro de ese plano, pues las podemos
considerar como k = h(X) y obviamente tienen varianza finita (vale 0), sobre la
recta de las constantes se ubicará E[Y ]. Como ya vimos, φ(X) = E[Y |X] es la
proyección de Y sobre el plano HX , también vale que E[Y ] es la proyección so-
bre la recta tanto de Y como de φ(X). Luego dibujamos (se copia impunemente
y sin permiso de Grynberg [1]):

Figura 3: Teorema de pitágoras

13.3. Ejemplos varios

PN
Ejemplo 13.15 (Suma aleatoria de V.A.). Hacer ejemplo S = i=1 Xi con Xi
independientes e independientes de N . Hacerlo paso a paso y usar la indepen-
dencia con N a último momento, destacar que en la guı́a hay ejercicios donde
eso no se cumple.

Ejemplo 13.16 (Mezcla). Demostrar las fórmulas dadas para esperanza y va-
rianza de mezclas

Ejercicios
PyE B: Pueden completar la guı́a 5.

74
14. Proceso Bernoulli
14.1. Procesos y proceso Bernoulli
Definición 14.1 (Proceso aleatorio). Un proceso aleatorio o proceso estocástico
Π es una familia {Xt : t ∈ T } de variables aleatorias que toman valores en un
conjunto S.
Nota 14.2 (Sobre los procesos). Algunas consideraciones:
1. Se puede interpretar al proceso aleatorio como una colección infinita de
variables aleatorias Xt , donde le subı́ndice t recorrerá en general los natu-
rales o los reales positivos.
2. Las Xt pueden o no ser independientes.
3. Si los tiempos son numerables, por ejemplo T = N, o Z diremos que el
proceso es de tiempo discreto.
4. Si en cambio el tiempo es no numerable, tı́picamente T = [0, +∞) o R,
diremos que el proceso es de tiempo continuo.

Definición 14.3 (Proceso Bernoulli). Diremos que {Xn : n ∈ N} es un proceso

Bernoulli si Xn son variables aleatorias independientes idénticamente distribui-
das (V.A.I.I.D.) con distribución Ber(p), i.e.
P(Xn = x) = (1 − p)1 {x = 0} + p1 {x = 1}
o equivalente:
pXn (0) = 1 − p pXn (1) = p
El proceso Bernoulli (o ensayos Bernoulli) se puede pensar como tirar repe-
tidas veces una moneda y registrar si sale cara (1) o ceca (0), o (más general)
repetir en condiciones ideales un experimento en el cual hay dos resultados de
interés: éxito (1) y fracaso (0).

14.2. Distribuciones asociadas

Teorema 14.4 (Distribución binomial). Definamos Yn como la cantidad de
éxitos (1) observados en los primeros n (fijo) ensayos de Bernoulli
n
X
Yn := Xi
i=1

Vale que la variable Yn tendrá distribución binomial B(n, p).

Nota: su moda es mod(Yn ) = ⌊(n + 1)p⌋ o también mod(Yn ) = ⌈(n + 1)p⌉ − 1
(notar que en general son el mismo número y la moda es única, salvo cuando lo
que queda dentro del redondeo es un entero y entonces hay dos modas).
Teorema 14.5 (Distribución geométrica y pascal). Definamos Sk como la can-
tidad de experimentos necesarios (tiempo de espera) hasta observar k (fijo)
éxitos en ensayos Bernoulli. Formalmente:
( n
)
X
Sk = mı́n n : Xi ≥ k
i=1

75
Vale que Sk tendrá distribución Pascal Pas(k, p) (ver tabla de distribuciones).
El caso particular de tiempo de espera hasta el primer éxito S1 tiene distribución
Geométrica Geo(p) (ver tabla).
Nota 14.6 (Cuidado con los libros). No todos los autores definen Geométrica
y Pascal como lo hacemos en el curso. Los rusos en general las definen como
cantidad de fracasos (en lugar de experimentos) hasta el primer o k-ésimo éxito.
Y a la Pascal muchos autores la llaman binomial negativa.
Teorema 14.7 (Pérdida de memoria de la geométrica). Si T ∼ G(p) entonces
diremos que tiene la propiedad de pérdida de memoria, formalmente:
P(T > n + m|T > n) = P(T > m) ∀n, m ∈ N
Nota: también vale:
E[T |T > n] = n + E[T ] ∀n ∈ N
Demostración. Inmediata, usar la definición de probabilidad condicional.
Teorema 14.8 (La pérdida de memoria caracteriza a la geométrica). Si T es
una variable aleatoria discreta a valores en N con la propiedad de pérdida de
memoria, entonces T ∼ G(p), donde p = P(T = 1).
Teorema 14.9 (Tiempos entre éxitos sucesivos). Dado un proceso Bernoulli
donde definimos los tiempos de espera Sk con distribución Pascal Pas(k, p),
definamos Tk como la cantidad de experimentos entre el éxito k − 1 y el éxito k
(con T1 la cantidad de ensayos hasta el primer éxito), formalmente:
T1 = S1 Tk = Sk − Sk−1 k>1
Vale que {Ti , i ∈ N} son variables aleatorias independientes idénticamente dis-
tribuidas (V.A.I.I.D.) con distribución G(p).
Teorema 14.10 (Suma de G(p) independientes). Sean {Ti , i ∈ N} una familia
de variables aleatorias independientes con distribución G(p), entonces:
k
X
Sk = Ti
i=1

tiene distribución Pas(k, p).

Teorema 14.11 (Relación entre binomial y pascal). Sea Yn ∼ B(n, p) y Sk ∼
Pas(k, p), vale que:
P(Yn ≥ k) = P(Sk ≤ n)
se interpreta: “en n ensayos Bernoulli ocurren por lo menos k éxitos” es lo mismo
que decir “el tiempo de espera hasta el k-ésimo éxito es a lo sumo n”.

Teorema
Pn 14.12 (Aproximación Poisson a la binomial —Informal—). Sea Yn =
i=1 Xi , se indicó ya que es una variable aleatoria binomial. Si n es grande, p
pequeño, y µ := np constante al tomar lı́mite vale que:

(np)y e−np
P(Yn = y) ≈
y!
es decir, podemos aproximar a la distribución B(n, p) por una Poi(µ = np).

76
Demostración. En la fórmula de la binomial expresar el combinatorio por facto-
riales, reemplazar n! y (n−k)! por la fórmula de Stirling, tomar lı́mite resolviendo
las indeterminaciones 0∞ y listo.

En la figura 4 se observa la probabilidad puntual de 3 variables binomia-

les, donde se va agrandando n y achicando p de manera de mantener µ = np
constante, y tamibén se dibuja la probabilidad puntual de una variable Poisson
de parámetro µ. Notar como las binomiales se acercan a la Poisson, y que la
tercera binomial prácticamente no se distingue de la Poisson.

Figura 4: Aproximación Poisson a la binomial

Ejercicios
Pueden hacer ejercicios 6.1, 6.3, 6.4, 6.6, 6.7, 6.12.

14.3. Proceso Bernoulli generalizado

Definición 14.13 (Proceso Bernoulli). Diremos que {Xn : n ∈ N} es un pro-
ceso Bernoulli generalizado si Xn son variable aleatorias independientes idénti-
camente distribuidas (V.A.I.I.D.) discretas a valores {1 . . . b} con
b
X
P(Xn = x) = px px = 1
x=1

77
o equivalente:
pXn (1) = p1 pXn (2) = p2 ... pXn (b) = pb
A este tipo de variables discretas se las suele llamar variables categóricas
(porque se interpreta que la variable en cada experimento nos dice a qué ca-
tegorı́a pertenece el resultado obtenido). El proceso Bernoulli generalizado (o
ensayos Bernoulli generalizados, o proceso categórico) se puede pensar como re-
petir en condiciones ideales un experimento en el cual hay r resultados posibles
(categorı́as). Es una generalización del proceso Bernoulli, se mantiene la inde-
pendencia y distribución idéntica entre los ensayos, pero se admiten r resultados
posibles en lugar de simplemente éxito o fracaso.
Teorema 14.14 (Distribución multinomial). Sea M n un vector que cuenta la
cantidad de ocurrencias de cada resultado en los primeros n ensayos, esto es:
n
X
(Mn )j := 1 {Xi = j} j = 1...b
i=1

Vale que la variable M n tendrá distribución multinomial Mul(n, pi ) (ver tabla

de distribuciones).
Teorema 14.15 (Filtrar un P.B.G.). —Informal, inspirado en las clases de
Busch—: Sea {Xn : n ∈ N} un proceso Bernoulli generalizado a valores {1 . . . b}
con probabilidades pi . Construimos el proceso {Yn : n ∈ N} a partir del proceso
original descartando o tachando todas las ocurrencias del resultado t. Vale que
el nuevo proceso es un proceso Bernoulli generalizado con probabilidades
pj
p∗j = P(Yn = j) = 1 {y ̸= t} j = 1...b
1 − pt

Ejercicios
Pueden hacer ejercicios 6.14, 6.15, 6.17.

14.4. Miscelánea tóxica

14.4.1. Coleccionista
Teorema 14.16 (*Coleccionista - Tiempo de espera). —Esto no se da en teóri-
ca, ver resolución de ejercicio 6.12 dado en la práctica o resolución de ejercicio
14.20— Sea {Xn : n ∈ N} un proceso Bernoulli generalizado a valores {1 . . . m}
con probabilidades pi > 0. Sea Cm la cantidad mı́nima de experimentos (tiempo
de espera) hasta haber observado a todos los resultados posibles por lo menos
una vez. Vale que:
m−1
X X 1
E[Cm ] = (−1)m−1−q
q=0
1 − PJ
|J|=q
P P
donde PJ = j∈J pj y |J|=q indica que sumemos en todos los J subconjuntos
de {1 . . . m} que tengan cardinal q.

78
Demostración. Ver Flajolet, Gardy, Thimonier [10]. Los autores trabajan con
lenguajes regulares y funciones generadoras (escapan los objetivos del curso y
conocimiento del autor).
Ejemplo 14.17 (Aplicación de coleccionista). —Esto tampoco se da, simple-
mente baja a tierra el delirio anterior— Para entender la fórmula, resolvamos
para m = 1
E[Cm ] = 1
Para m = 2, por simplicidad p = (p1 , p2 ) = (a, b)
1 1
E[Cm ] = −1 + +
1−a 1−b
Para m = 3, por simplicidad p = (p1 , p2 , p3 ) = (a, b, c)
1 1 1 1 1 1
E[Cm ] = 1 − − − + + +
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
Para m genérico y pi = 1/m (resultados equiprobables):
m
X m 1
E[Cm ] = m (−1)q−1
q=1
q q

como se vio en un ejercicio de la guı́a (chocolatines Jack), el caso de equiproba-

bilidad tiene un resultado más fuerte:

m−1 m−2 1
Cm ∼ 1 + Ge + Ge + · · · + Ge
m m m
Teorema 14.18 (Coleccionista - Róbins hasta Bátman). {Xn : n ∈ N} un
proceso Bernoulli generalizado a valores {1 . . . b} con probabilidades pi > 0. Sea
Tb la cantidad mı́nima de ensayos (tiempo de espera) hasta observar por primera
vez el resultado b, i.e. Tb = mı́n{n : Xn = b}. Definimos para r = 1, . . . , b − 1
PTb −1
el valor Nrb = n=1 1 {Xn = r} que cuenta la cantidad de veces que veo el
resultado r hasta ver por primera vez el resultado b. Vale que:

Tb ∼ G(pb )

m
pb pb pb
Nrb ∼ G −1 P(Nrb = m) = 1−
pb + pr pb + pr pb + pr
En particular,
pb
pr 1− pb +pr
E[Nrb ] = var(Nrb ) = 2
pb pb
pb +pr

Demostración. Ver Grynberg [1], Ensayos Bernoulli, ejemplo 1.16 para una de-
mostración rigurosa. También se puede demostrar notando que si al proceso
Bernoulli generalizado de las Xi original lo filtramos quitando todos los ex-
perimentos con resultado que no nos interesa {t : t ̸= r, t ̸= b}, nos quedará
un proceso con solamente dos resultados, r y b, y probabilidades respectivas
qr = pr /(pr + pb ) y qb = pb /(pr + pb ). El tiempo de espera hasta el primer resul-
tado r en el proceso filtrado es una geométrica G(qr ), y para contar la cantidad
de fracasos le restamos 1.

79
Nota 14.19 (Sobre róbins hasta Bátman). Podemos pensar el problema como
una variación del coleccionista. Unos chocolatines traen premios de superhéroes
yankis. No nos interesa juntar la colección completa, simplemente queremos
(como todos) conseguir un Bátman (el premio b), si nos sale un Súperman o
Mujer Maravilla (premios ̸= r) nos los quedamos, pero si nos sale un Róbin
(el premio r) lo tiramos al carajo. Compramos chocolatines hasta conseguir el
preciado Batman, ¿cuántos Robins tengo que tirar?
Ejemplo 14.20 (Coleccionista con tres premios y vacı́os). Resolveremos el
problema del coleccionista clásico, paso por paso, pero agregándole la posibili-
dad de que vengan chocolatines vacı́os. Sea {Xi : i ∈ N} un proceso Bernoulli
generalizado a valores (0, 1, 2, 3) con probabilidades respectivas (z, a, b, c). El
coleccionista quiere juntar los premios 1 a 3, y los 0 no le interesan, representan
el chocolatı́n vacı́o.
Llamaremos N al tiempo de espera a completar la colección, NZ al tiem-
po que falta hasta completar la colección dado que ya acumulé Z ⊂ {1, 2, 3}
(subconjunto de la colección completa).
Condicionemos para empezar N al primer resultado. Si sale vacı́o el problema
vuelve a empezar, si sale 1 a 3 el coleccionista avanza:
N |X1 = 0 ∼ 1 + N

N |X1 = 1 ∼ 1 + N1
N |X1 = 2 ∼ 1 + N2
N |X1 = 3 ∼ 1 + N3

Ahora nos encontramos que para conocer N , debemos estudiar cómo se com-
portan N1 , N2 y N3 . Sigamos avanzando, para analizar N1 de una forma similar,
condicionemos al resultado i que será el primero después de obtener el premio
1. De nuevo, si ya tenemos el 1 acumulado y nos sale vacı́o o de nuevo 1 el
coleccionista no avanza, si sale 2 o 3 sı́.

N1 |Xi = 0 ∼ 1 + N1
N1 |Xi = 1 ∼ 1 + N1

N1 |Xi = 2 ∼ 1 + N1,2
N1 |Xi = 3 ∼ 1 + N1,3

Y ahora para estudiar describir N1 nos aparecen N1,2 y N1,3 . Parece que
se complica cada vez más, pero debemos notar que las variables N1,2 y N1,3
representan el tiempo de espera hasta encontrar el único premio que falta (3 y
2 respectivamente). Para cada una de ellas, hay un solo éxito que consiste en
encontrar el premio que falta, luego el tiempo hasta el éxito se distribuye como
variable geométrica, respectivamente N1,2 ∼ G(c) y N1,3 ∼ G(b).
Entonces, por fórmula de probabilidades totales para esperanza:

E[N1 ] = (z + a)E[1 + N1 ] + bE[1 + N1,2 ] + cE[1 + N1,3 ]

E[N1 ] (1 − (z + a)) = (z + a + b + c) + bE[N1,2 ] + cE[N1,3 ]

80

1 b c
E[N1 ] = 1+ +
1−z−a c b

1 b c
E[N1 ] = 1+ +
b+c c b
Análogamente
1 c a
E[N2 ] = 1+ +
c+a a c

1 a b
E[N3 ] = 1+ +
a+b b a
Planteamos ahora E[N ] por fórmula de probabilidades totales

E[N ] = zE[1 + N ] + aE[1 + N1 ] + bE[1 + N2 ] + cE[1 + N3 ]

E[N ](1 − z) = (z + a + b + c) + aE[N1 ] + bE[N2 ] + cE[N3 ]

1 a b c b c a c a b
E[N ] = 1+ 1+ + + 1+ + + 1+ +
a+b+c b+c c b c+a a c a+b b a
Si z = 0 (no hay chocolatines vacı́os) trabajando se llega a la fórmula:

1 1 1 1 1 1
E[N ] = 1 − − − + + + si z = 0
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a

14.4.2. Rachas
Teorema 14.21 (*Rachas - Tiempos de espera). —Esto no se da en clase ni
se pide en ningún ejercicio de la guı́a— Del Feller XIII.7 [3] Sea Tr el tiempo
de espera (cantidad de lanzamientos necesarios) hasta observar por primera vez
una racha de r éxitos consecutivos en un proceso Bernoulli p, con q = 1 − p,
vale que:
1 − pr 1 2r + 1 p
E[Tr ] = r
var(Tr ) = r 2
− r
− 2
qp (qp ) qp q
Sean fn la probabilidad de que la primera vez que se observa una racha de
r éxitos consecutivos ocurra en la tirada n, y qn la probabilidad de que en n
tiradas no haya ninguna racha de r éxitos consecutivos, vale que:

(x − 1)(1 − px) 1
fn ≃
(r + 1 − rx)q xn+1
1 − px 1
qn ≃
(r + 1 − rx)q xn+1
donde x es la menor solución a la ecuación s = 1 − qpr sr+1 , la misma se puede
encontrar de forma recursiva tomando g(s) = 1−qpr sr+1 , x0 = 1, xn+1 = g(xn ).
Demostración. Ver [3]. Trabaja con funciones generadoras (escapan los objetivos
del curso y conocimiento del autor).

81
Teorema 14.22 (*Rachas - Competencia). —Teorema ultra especı́fico, sirve
solo para un ejercicio que se pasó a complementarios— Del Feller VIII.1 [3] Sea
A el evento “un racha de α éxitos consecutivos ocurre antes que una racha de
β fracasos consecutivos” en un P.B. p, con q = 1 − p, vale que:

1 − qβ
P(A) = pα−1
pα−1 + q β−1
− pα−1 q β−1
1 − pα
P(B) = q β−1
pα−1 + q β−1 − pα−1 q β−1
Notar:
P(A) + P(B) = 1
i.e. en algún momento ocurre una racha de α éxitos o β fracasos (por más
grandes que sean α y β).

Demostración. Ver [3]. Esta se entiende fácil, hace algo parecido a lo que hicimos
en el problema de la rata o el del coleccionista.

14.5. Resumen
Tabla resumen para tener a mano. Las hipótesis son las del capı́tulo: ensayos
independientes con dos posibles resultados para las primeras o con r posibles
resultados para las últimas. La Letra es una arbitrariedad del curso, use la letra
que más le guste.

Nombre Letra Modela

Bernoulli, Vale 1 si en el experimento i sale éxito, 0 si
Xi
Ber(p) sale fracaso
Cantidad de éxitos (1) en los primeros n
Binomial,
Yn experimentos (o en cualquier sucesión de n
B(n, p)
experimentos
Cantidad de ensayos necesarios hasta
Geométrica,
T observar el primer éxito (o cantidad de
G(p)
ensayos entre un éxito y el siguiente)
Pascal, Cantidad de ensayos necesarios hasta
Sk
Pas(k, p) observar el k-ésimo éxito

Multinomial, Vector con cantidad de ocurrencias de cada

Mn
Mul(n, p1 , . . . , pk ) resultado posible en n experimentos

Róbins hasta Cantidad de ocurrencias Róbin (r) hasta

Nrb
Bátman observar el primer Bátman (b)

Hipergeométrica, Éxitos en n extracciones de una población

H
H(N, d, n) tamaño N con d éxitos y N − d fracasos

82
15. Proceso de Poisson
Seguiremos [1], Procesos de Poisson, 22 de abril de 2013. Se formaliza un
poco más la pérdida de memoria del proceso, y se agrega algún resultado sobre
el PPP mirado desde un t0 hacia atrás.

15.1. Procesos puntuales

Definición 15.1 (Proceso puntual aleatorio). Sea Π = {Sn : n ∈ N ∪ {0}} un
proceso aleatorio que toma valores sobre [0, +∞) tales que, casi seguramente
(a.s.)
(a) S0 = 0
(b) S0 < S1 < S2 < · · ·
(c) lı́mn→∞ Sn = +∞

Diremos entonces que Sn es un proceso puntual aleatorio o P.P. sobre la semi-

rrecta positiva.
Nota 15.2 (Sobre los procesos puntuales). Algunas consideraciones:
S0 = 0 la incluimos en el proceso Π por convención, pero siempre vale 0
(lo podemos pensar como una constante o una variable aleatoria trivial)
Un Proceso Puntual es un proceso en el cual (con probabilidad 1): su
primera variable es 0, sus variables están ordenadas de menor a mayor,
y no explota (no puedo ver infinitos arribos en una cantidad finita de
tiempo).

Interpretaremos a los P.P. como el tiempo de arribo o el tiempo de llegada

de una marca o evento (hacer gráfico).
A los procesos puntuales los llamaremos habitualmente con letras griegas
mayúsculas
Definición 15.3 (Tiempos de espera). Al proceso {Tn : n ∈ N} definido por:

Tn := Sn − Sn−1 n∈N

donde las Sn son un Proceso Puntual, lo llamaremos sucesión de tiempos de

espera entre arribos. Notar que toma valores en [0, +∞) pues las Si están orde-
nadas de menor a mayor.

Definición 15.4 (Proceso de conteo asociado). Sea {Sn : n ∈ N ∪ {0}} un

Proceso Puntual, definimos
∞
X
Nt := 1 {Sn ≤ t} t ∈ (0, +∞)
n=1

i.e. la cantidad de arribos que ocurren en el intervalo (0, t]. Llamaremos al

proceso de las Nt proceso de conteo asociado a la sucesión de arribos Sn .

83
Definimos también a la cantidad de arribos en el intervalo (s, t] a la que
llamaremos “incrementos”:

N(s,t] := Nt − Ns 0<s<t

NOTACIÓN: Escribiremos indistintamente para el proceso de conteo Nt =

N (t) y para los incrementos N(s,t] = N (s, t]
Teorema 15.5 (Propiedades de procesos puntuales y de conteo). Con las Sn y
Nt recién definidas vale que:
(1) Nt ≥ n ⇔ Sn ≤ t

(2) Nt = n ⇔ Sn ≤ t < Sn+1

(3) Nt es una variable aleatoria a valores en N0
(4) N0 = 0 y lı́mt→∞ Nt = ∞
(5) Si s < t entonces Ns ≤ Nt .

(6) Si pensamos N (t) como una función (aleatoria, pues depende de las Sn ) de
t, tenemos N : R+ → N0 continua por derecha, no decreciente, que da saltos
en cada tiempo de arribo de altura 1. Hacer gráfico.

15.2. Proceso puntual de Poisson

Los procesos de Poisson tienen muchas propiedades que le son únicas, por
lo que admiten muchas definiciones distintas. Adoptamos la de [1] pues, en sus
palabras, es la más sencilla y generalizable (se la puede extender fácilmente de
la semirrecta R+ al espacio Rn )

Definición 15.6 (Proceso puntual de Poisson). Diremos que un Proceso Pun-

tual {Sn : n ∈ N0 } sobre la semirrecta positiva es un Proceso Puntual de Poisson
(P.P.P.) de intensidad λ > 0 si satisface las siguientes condiciones:
(1) Los incrementos no superpuestos son independientes, i.e. para todo s < t ≤
u < v se cumple que N (s, t], N (u, v] son independientes.

(2) Los incrementos tienen distribución N (s, t] ∼ Poi(λ(t − s))

Teorema 15.7 (Distribuciones asociadas). Sea Π = {Sn : n ∈ N0 } un Proceso
Puntual de Poisson de intensidad λ sobre la semirrecta positiva, sean {Tn : n ∈
N} sus tiempos de espera, vale que:

(I) La densidad conjunta de los primeros n tiempos de arribo es:

f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1 {0 < s1 < s2 < . . . < sn }

(II) Las distribuciones marginales de los tiempos de arribo son Sn ∼ Γ(n, λ)

(notar que no son independientes)

(III) Los tiempos de espera Tn son variables independientes con distribución

Tn ∼ E(λ)

84
Demostración. Ver [1], Procesos de Poisson, teorema 1.5. No es tan larga y es
interesante. Arma la conjunta de las Gammas S1 . . . Sn a partir del proceso de
conteo tirando de galerazo unas integrales, y luego por jacobiano encuentra la
conjunta de las T1 . . . Tn .
Teorema 15.8 (Definiciones alternativas). Los enunciados (I) y (III) del teore-
ma anterior son caracterı́sticas únicas de los procesos de Poisson y sirven como
definiciones alternativas.

(I) Sea Π = {Sn : n ∈ N ∪ {0}} un P.P. tal que la densidad conjunta de los
primeros n tiempos de arribo está dada por

f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }

vale que Π es un PPP(λ).

(II) dejado intencionalmente en blanco

(III) Sea {Tn : n ∈ N} una sucesión de tiempos de espera con Tn ∼ E(λ)
independientes entre sı́. Definimos al proceso de arribos Π = {Sn : n ∈
N ∪ {0}} de la siguiente manera:
n
X
S0 := 0 Sn := Ti n = 1, 2, . . .
i=1

vale que Π es un Proceso Puntual de Poisson de intensidad λ.

Demostración. Ver [1], Procesos de Poisson, tı́tulo 1.3. Es larga, hay que de-
mostrar que lo que se arma al “apilar” exponenciales independientes de tasa
λ es un proceso puntual, y que cumple las dos condiciones necesarias para ser
PPP.
Teorema 15.9 (Aditividades). Por si alguien no se avivó todavı́a, va de refuer-
zo:
Pn
1. Sean Ti V.A.I.I.D. exponenciales de tasa λ, y sea Sn = i=1 Ti , entonces
Sn tiene distribución Gamma (o Erlang) de parámetros n y λ, i.e.

Sn ∼ Γ(n, λ)

Nota memoria: suma de VA exponenciales independientes de misma tasa

es VA Gamma
2. P
Sean Ni V.A. independientes con distribución P oi(µi ), entonces N =
n
i=1 Ni tiene distribución de Poisson de media suma de las medias.

n
!
X
N ∼ Poi µi
i=1

Memorizar: suma de VA Poissones independientes es VA Poisson.

85
Ejercicios
Pueden hacer ejercicios 7.1 (salvo inciso f), 7.2, 7.3.

15.3. Pérdida de memoria

Teorema 15.10 (Pérdida de memoria - Resumido e informal). — Ası́ lo vemos
en clase, con dibujitos — Sea Π un PP(λ), si en un instante t0 > 0 arbitrario
me paro, inicio un cronómetro y miro las marcas en la semirrecta (t0 , +∞)
registrando sus tiempos según mi cronómetro, lo que observo es Π∗ , un proceso
de poisson de tasa λ. Lo mismo ocurre si lo hago en un instante aleatorio no
negativo T0 independiente del proceso. La fiesta de Poisson empieza cuando
llego

Teorema 15.11 (*Pérdida de memoria 1). Sea Π un PPP(λ), t0 ∈ R+ positivo.

Definimos:
So∗ := 0 i0 := mı́n{i : Si > to } − 1
Si∗ := Sio +i − t0 i∈N
Π∗ = {Sn∗ : n ∈ N0 }
Vale que Π∗ es un PPP(λ)
Demostración. (Informal) Se verifica que Π∗ es un PP, pues empieza con 0,
las variables vienen ordenadas de menor a mayor pues respestan el orden del
proceso original, y el lı́mite de Sn∗ en infinito coincide con el del proceso original.
Cumple con la condición 1 para ser PPP pues si en el proceso original elegi-
mos la colección de tiempos 0 < t1 < t2 < · · · < tn con t1 = t0 coincidente con
el origen del nuevo proceso, la independencia se deberá cumplir en el proceso
nuevo.
Cumple con la condición 2 pues las marcas las hereda del proceso original,
entonces P (N ∗ (s, t] = n) = P (N (s + t0 , t + to ] = n).
Tenemos entonces un proceso puntual que cumple las dos condiciones para
ser PPP.
NOTA: Hacer gráfico del proceso original y el nuevo sobre la misma recta.
Notar que es simplemente arrancar un nuevo cronómetro en un instante dado,
olvidando lo que pasó antes.
Teorema 15.12 (*Pérdida de memoria 2). Con las mismas hipótesis, pero T0
ahora es una V.A. a valores positivos independiente de Π (de todas las Sn )
Definimos:
So∗ := 0 i0 := mı́n{i : Si > To } − 1
Si∗ := Sio +i − T0 i∈N
∗
Π = {Sn∗ : n ∈ Z+
0}

Vale que Π∗ es un PPP(λ)

86
Demostración. (Informal) Mismo procedimiento que en el teorema anterior, se
complica un poco la condición dos pues hay que condicionar las probabilidades
a T0 = t0 y aplicar fórmula de probabilidades totales.

Ejemplo 15.13 (Pérdida de memoria). Para compensar lo informal de las de-

mostraciones, calculemos (sin aplicar los teoremas recién vistos) la probabilidad
P(T1∗ > t):.
Caso 1: t0 arbitrario.

P(T1∗ > t) = P(Nt∗ = 0) = P(N(t0 ,t0 +t] = 0) = e−λt

de donde
T1∗ ∼ Exp(λ)
Caso 2: T0 V.A. positiva discreta

P(T1∗ > t) = P(Nt∗ = 0) = P(N(T0 ,T0 +t] = 0) = · · ·

la distribución de N(T0 ,T0 +t] no nos es conocida pues depende de T0 , ası́ que
condicionamos por FPT:
X
··· = P(N(T0 ,T0 +t] = 0|T0 = t0 )P(T0 = t0 ) = · · ·
t0 ∈A(T0 )

como T0 = t0 reemplazamos:
X
··· = P(N(t0 ,t0 +t] = 0|T0 = t0 )P(T0 = t0 ) = · · ·
t0 ∈A(T0 )

y como T0 es independiente del proceso podemos olvidar la condición

X
··· = P(N(t0 ,t0 +t] = 0)P(T0 = t0 ) = · · ·
t0 ∈A(T0 )

X X
··· = e−λt P(T0 = t0 ) = e−λt P(T0 = t0 ) = e−λt
t0 ∈A(T0 ) t0 ∈A(T0 )

de donde
T1∗ ∼ Exp(λ)
Caso 3: T0 V.A. positiva continua Es lo mismo sólo que en lugar de una
sumatoria debemos resolver una integral y en lugar de P (T0 = t0 ) debe ir
fT0 (t0 )dt0 .
Queda al final:
Z Z
··· = e−λt fT0 (t0 )dt0 = e−λt fT0 (t0 )dt0 = e−λt
R R

de donde
T1∗ ∼ E(λ)

87
15.4. *Waiting time paradoxes
Teorema 15.14 (*Poisson hacia atrás). Sea Π un PPP(λ), t0 ∈ R+ positivo.
Definimos:
(−)
T1 := t0 − máx{Si : Si < t0 }
el tiempo que pasó desde la última marca hasta el instante arbitrario t0 ). Vale
(−)
que T1 se distribuye con la siguiente función de distribución:

FT (−) (t) = 1 − e−λt 1{0 < t < t0 } + 1{t0 ≤ t}

Demostración. Usando el proceso de conteo:

(−)
P T1 > t = P (N (t0 − t, t0 ] = 0) = e−λt 1{t < t0 }

La esperanza del tiempo que pasó es

(−) 1 − e−λt0
E[T1 ]=
λ
NOTA: Notar que si t0 grande, se trata de una V.A. exponencial. El resul-
tado se puede generalizar, para un proceso lo suficientemente viejo (en estado
estacionario), desde un t0 arbitrario se tiene un PPP(λ) tanto hacia adelante
como hacia atrás.
Teorema 15.15 (*Poisson hacia atrás y adelante). Sea Π un PPP(λ), t0 ∈ R+
positivo. Definimos:

W := mı́n{Si : Si ≥ t0 } − máx{Si : Si < t0 }

o, en la notación que venimos trabajando

(−)
W = T1∗ + T1

i.e., el tiempo de espera entre la última marca antes de t0 y la primera después

de t0 . Vale que:

fW (w) = λ2 we−λw 1{0 < w ≤ t0 } + λ(1 + λt0 )e−λw 1{t0 < w}

Demostración. Ver [4], I.4 Waiting time paradoxes, hace una mezcla entre las
exponenciales. O calcular la densidad de W como la suma entre la primera
exponencial desde t0 y el tiempo hacia atrás.

NOTA: Notar que para t0 grande se trata de una Γ(2, λ).

Ejercicios
Pueden hacer ejercicios 7.5 optativo y muy teórico, 7.6.

88
15.5. Más propiedades
Hipótesis en general: Sn , Tn y N (t) como se definieron.
Teorema 15.16 (Tiempos de arribo dada cantidad arribada). Sabiendo que
hasta t hubo un solo arribo, T1 se distribuye uniformemente entre 0 y t, i.e.
T1 |Nt = 1 ∼ U (0, t)
o, equivalente:
s
P(T1 < s|Nt = 1) = 1 {0 < s < t} + 1 {t ≤ s}
t
Demostración. Demostrar en clase, deberı́a salir fácil.
Si fijamos ahora en un intervalo (a, d) la cantidad de arribos a exactamente
n, podemos pensar que esos n arribos se distribuyen como uniformes indepen-
dientes; si nos preguntamos qué pasa en un sector del intervalo (b, c) ⊂ (a, d),
obtenemos:

c−b
N(b,c] |N(a,d] = n ∼ B n, a≤b<c≤d
d−a
entonces,

n m c−b
P(N(b,c] = m|N(a,d] = n) = p (1 − p)n−m con p =
m d−a
Demostración. Demostrar en clase, deberı́a salir fácil. Tomar a = b = 0 sin
perder generalidad.
De manera similar, si fijamos el tiempo de arribo n + 1-ésimo y nos pregun-
tamos qué ocurrió antes, tendremos n marcas libres a distribuir en ese tiempo,
que lo harán como si fueran uniformes independientes. Lo podemos formalizar:

b−a
N(a,b] |Sn+1 = s ∼ B n, 0≤a<b<s
s
... y aún hay más, si por ejemplo fijamos la cantidad de arribos en (0, t] y
dividimos ese intervalo en 4 partes, con 0 < a < b < c < t

a b−a c−b t−c
((N (0, a], N (a, b], N (b, c], N (c, t])|N (t) = n) ∼ Mul n, , , ,
t t t t
Generalizando (informalmente), podemos decir que si Π es un proceso pun-
tual de Poisson de intensidad λ sobre R+ , condicional al evento N (t) = n, los
n arribos ocurridos en [0, t] tienen la misma distribución conjunta que la de n
puntos independientes elegidos al azar en [0, t] y luego ordenados de menor a
mayor.
Teorema 15.17 (Coloración). Sea Π un PPP sobre R+ de intensidad λ, y B
un PBG a valores {1 . . . r}. Colorearemos las marcas de r colores distintos de la
siguiente manera, a la marca n que ocurrió a tiempo Sn la pintamos del color
que nos indica la Xn (del PBG). Sean Πi los conjuntos de puntos (o tiempos de
arribo) pintados del color i, vale que Πi es un proceso de Poisson de intensidad
λi = pi λ, y los Πi son procesos independientes.

89
Demostración. Demostraremos qué pasa con el proceso de conteo para t fijo y
dos colores nada más. Si para un t fijamos la cantidad n de arribos del proceso
original, y deseamos saber cuántos de ellos debemos colorear del primer colo y
cuántos del segundo, basta con ver las primeras n Bernoullis y contar cuántas
son éxito
n!
P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = pn1 pn2
n1 !n2 ! 1 2
por lo tanto, teniendo en cuenta n = n1 + n2 la probabilidad no condicional
será:
n1 +n2

(n1 + n2 )! n1 n2 −λt (λt)
P(N1 (t) = n1 , N2 (t) = n2 ) = p p e
n1 !n2 ! 1 2 (n1 + n2 )!
−p1 λt
(p1 λt)n1 e−p2 λt (p2 λt)n2

e
··· =
n1 ! n2 !
dos variables Poisson independientes de tasas p1 λ y p2 λ
Se generaliza a r colores fácilmente. Y la propiedad de homogeneidad del
proceso original Π se traslada a los procesos nuevos.

Teorema 15.18 (Competencia o superposición). Sean Πi con i = 1 . . . r pro-

cesos puntuales de Poisson independientes de tasa λi sobre R+ . ElPconjunto
r
Π = ∪ri=1 Πi es un proceso puntual de Poisson sobre R+ de tasa λ = i=1 λi .
Sea Xi la variable que toma el valor k en 1 . . . r si la marca i del proceso Π
vino dada por el proceso Πk , entonces las Xi son un P.B.G. con probabilidades
pi = λi /λ independiente del proceso Π.
NOTA: Los últimos dos teoremas se pueden pensar como recı́procos. Hacer
gráfico esclarecedor.
Teorema 15.19 (Primeros n − 1 arribos dado el tiempo n-ésimo). Sea Π un
PPP(λ), sn > 0, vale que:

(n − 1)!
fS1 ,...Sn−1 |Sn =sn (s1 , . . . sn−1 ) = 1{0 < s1 < · · · < sn−1 < sn }
sn−1
n

i.e., dado el tiempo de arribo de la n-ésima marca, las anteriores se distribuyen

como una uniforme en el triángulo n − 1 dimensional 0 < s1 < · · · < sn−1 < sn
Demostración. Inmediato, hacer conjunta sobre marginal.

Ejercicios
Pueden hacer ejercicios 7.7, 7.9, 7.10, 7.12, 7.13, 7.17. Optativos 7.15 y 7.16
viendo Proceso de Poisson compueto a continuación.

Teorema 15.20 (Proceso de Poisson compuesto). Sean {N (t), t ∈ R+ } el pro-

ceso de conteo asociado a un PPP de tasa λ y {Yi , i ∈ N} un proceso de

90
V.A.I.I.D. cualesquiera independientes de las N (t). Definimos el proceso de pois-
son compuesto:
N (t)
X
X(t) := Yi
i=1

Vale que:
1. Si E[Yi ] finita, E[X(t)] = λt · E[Y1 ]
2. Si var(Yi ) finita, var(X(t)) = λt · E[Y12 ]

Demostración. Demostrar usando E[X(t)] = E[E[X(t)|N (t)]] y pitágoras. No-

tar que el planteo es muy similar a lo que llamamos suma aleatoria de variables
aleatorias, ahora simplemente aparece t que es un parámetro fijo.

15.6. Resumen
Tabla resumen para tener a mano. Las hipótesis son las del capı́tulo: un
proceso puntual de Poisson. La Letra es una arbitrariedad del curso, use la letra
que más le guste.

Nombre Letra Modela

Cantidad de arribos (marcas) en el intervalo
Poisson N(s,t]
(s, t]. (Nt refiere a marcas en intervalo (0, t])
Tiempo necesario hasta observar el primer
Exponencial T arribo (Tn refiere al tiempo entre el
n − 1-ésimo arribo y el n-ésimo)
Tiempo necesario hasta observar el n-ésimo
Gamma Sn
arribo

91
16. Variable normal y TCL
16.1. La variable normal univariada
Definición 16.1 (Normal y normal estándar). Diremos X ∼ N (µ, σ 2 ) si

(x − µ)2

1
fX (x) = √ exp −
σ 2π 2σ 2

Diremos Z ∼ N (0, 1) o Z es normal estándar si

1 2
fZ (z) = φ(z) = √ e−z /2
2π
La función de distribución de Z se encuentra integrando φ con métodos
numéricos y es una función nueva en el sentido de que no la podemos escri-
bir como combinación de las funciones conocidas (polinomios, trigonométricas,
exponencial, etc.). La llamaremos:
Z z
Φ(z) := FZ (z) = φ(t)dt
−∞

La función Φ es estrictamente creciente y por lo tanto inversible, usaremos en

el curso la notación habitual de cuantiles, es decir:

zα = Φ−1 (α) α ∈ (0, 1)

Ejercicio 16.2. Ï [Rutina ej. 2.9] Pruebe la siguiente rutina en python.

1 import numpy as np
2 import [Link] as sps
3

4 print(’Ej. 2.9’)
5 mu, sig2 = 0., 1.
6 va_Z = [Link](mu, sig2**0.5) #Define variable aleatoria Z ~ N(mu, sig2)
7 #notar que hay que pasarle el desvio y no la varianza
8 z = 1
9 alpha = 0.1
10 print(f’P(Z<{z}) = {va_Z.cdf(z)}’) #cumulative distribution function
11 print(f’P(Z>{z}) = {va_Z.sf(z)}’) #survival funcion
12 print(f’z_{alpha} = {va_Z.ppf(alpha)}’) #percent point function (cuant.)
13 print(f’z_(1-{alpha}) = {va_Z.isf(alpha)}’) #inverse survival function

Teorema 16.3 (Simetrı́a). Vale que:

Φ(−z) = 1 − Φ(z) z∈R

zα = −z1−α α ∈ (0, 1)
Demostración. Inmediata, la gráfica de φ(z) es simétrica respecto al eje z = 0
(es función par).
Teorema 16.4 (Estandarización y cálculo). Sea X ∼ N (µ, σ 2 ), Z := (X −µ)/σ
vale que Z es normal estándar. Luego:

92
x−µ

P (X ≤ x) = Φ σ

b−µ a−µ

P (a < X ≤ b) = Φ σ −Φ σ

c −c c

P (|X − µ| < c) = Φ σ −Φ σ = 2Φ σ −1

NOTA: Los valores de Φ(z) se encuentran tabulados en libros y tablas,

usualmente para −3 ≤ z ≤ 3 con saltos de 0.01.
2
Teorema 16.5 (Linealidad). Sea X ∼ N (µX , σX ), Y := aX + b con a, b ∈ R,
2 2
vale que Y ∼ N (aµX + b, a σX ).

Demostración. Inmediata con método del Jacobiano.

Teorema 16.6 (Aditividad). Sea X ∼ N (µ, Σ) normal multivariada, S :=
Pn
i=1 Xi , vale que:
 
Xn n X
X n
S∼N µi , cov(Xi , Xj )
i=1 i=1 j=1

si las Xi son independientes entre sı́, queda

n n
!
X X
S∼N µi , σi2
i=1 i=1

Demostración. Tomar n = 2 y obtener la densidad de la suma por convolu-

ción (laburo jodido de análisis), luego inducción. Ver [1], Normalidad y teorema
central del lı́mite.

16.2. Teoremas lı́mite

Teorema 16.7 (Teorema de De Moivre-Laplace). Sea Sn ∼ B(n, p) con 0 <
p < 1, vale que: !
Sn − np
lı́m P p ≤ x = Φ(x)
n→∞ np(1 − p)
Aplicación: para np y n(1 − p) grande diremos Sn ∼∼ N (np, np(1 − p)).
Luego (si q = 1 − p)

1
P (Sn = k) ≃ √npq φ k−np
√
npq (sugerimos no usar esta fórmula)

k−np
P (Sn ≤ k) ≃ Φ √
npq

O mejor, corrigiendo por continuidad ya que Sn es discreta, nos corremos un

medio para donde corresponda

P (Sn = k) ≃ Φ k+0.5−np
√
npq − Φ k−0.5−np
√
npq

k+0.5−np
P (Sn ≤ k) ≃ Φ √
npq

93
Demostración. Ver Feller Tomo I [3], capı́tulo VII - The normal aproximation
to the binomial distribution
Teorema 16.8 (Teorema central del lı́mite). Sea Xi : i ∈ N una sucesión de
variables aleatorias independientes, todas con la misma distribución, con media
µ y varianza σ 2 (finitas). Sea
Xn
S := Xi
i=1

Vale que:
S − nµ
lı́m P √ ≤z = Φ(z)
n→∞ n · σ2
∼
Aplicación: Para n grande diremos S ∼ N (nµ, nσ 2 ). Luego:

P (S ≤ x) ≃ Φ x−nµ
√
nσ

b−nµ a−nµ
P (a < S ≤ b) ≃ Φ √
nσ
−Φ √
nσ

S
P n − µ ≤ a √σn ≃ 2Φ(a) − 1

Demostración. Ver Grimmet-Stirzaker [5], capı́tulo 5 - Generating functions and

their aplications, tı́tulo 5.10 Two limit theorems. La demostración es muy corta
pero usa funciones generadoras que es algo que no damos en el curso, hay que
leer todo el capı́tulo.
NOTA: No es estrictamente necesario que las variables sean idénticamente
distribuidas, ni que haya independencia entre todas, hay más generalizaciones
del TCL que no veremos en este curso.

Ejercicios
Pueden hacer 8.1 a 8.5, 8.7, 8.10 a 8.12, 8.15, 8.16, 8.18, 8.19. Y optativos
8.13, 8.14, 8.22.

16.3. La variable normal bivariada

Definición 16.9 (Normal bivariada). Diremos (X1 , X2 ) ∼ N (µ, Σ) si

(x1 − µ1 )2

1 −1
fX1 ,X2 (x1 , x2 ) = exp +
2(1 − ρ2 ) σ12
p
2πσ1 σ2 1 − ρ2
(x2 − µ2 )2

2ρ(x1 − µ1 )(x2 − µ2 )
−
σ22 σ1 σ2

donde los parámetros son el vector de medias y la matriz de covarianzas

σ12

µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22

94
Teorema 16.10 (Marginales y condicionales). Sea (X1 , X2 ) ∼ N (µ, Σ) con:

σ12

µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
vale que:

X1 ∼ N (µ1 , σ12 )
X2 ∼ N (µ2 , σ22 )

X1 |X2 = x2 ∼ N µ1 + ρσ1 x2σ−µ
2
2
, (1 − ρ 2 2
)σ 1

X2 |X1 = x1 ∼ N µ2 + ρσ2 x1σ−µ
1
1
, (1 − ρ 2 2
)σ 2

Demostración. Ver [6], 5.12 The Bivariate Normal Distribution. Construye X1 , X2

como un cambio de variables a partir de dos normales estándar independientes
y demuestra las propiedades.
Teorema 16.11 (Generación de normales multivariadas). Sea Z = (Z1 , Z2 , . . . Zn )
un vector de n variables aleatorias independientes normal estándar.
Sea
X := T T Z + µ
donde µ ∈ Rn es el vector de medias y T ∈ Rn×n es una matriz tal que el produc-
to de su transpuesta por sı́ misma da por resultado una matriz de covarianzas
TTT = Σ
Vale que:
X ∼ N (µ, Σ)
i.e.:
1 1 T −1
fX (x) = q exp − (x − µ) Σ (x − µ)
(2π)n |Σ| 2

NOTA: es habitual usar para T la descomposición de Cholesky de Σ.

Demostración. Hacer fórmula del Jacobiano, es una transformación lineal bi-
yectiva. El teorema figura en [11], 5.3.1 Multivariate Normal Distribution.

95
Referencias
[1] Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], marzo a junio
de 2013.
[2] Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995.
[3] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
I. 2da ed. New York: John Wiley & Sons, 1957.
[4] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
II. 2da ed. New York: John Wiley & Sons, 1971.
[5] Grimmet, G., Stirzaker, D. Probability and Random Processes. 3ra. ed. Gran
Bretaña: Oxford University Press, 2001.
[6] DeGroot, M. H. Probability and Statistics. 2nd. ed. [Link].: Addison-
Wesley Publishing Company, 1989.

[7] Billingsley, P. Probability and Measure. 3rd. ed. [Link].: New York: John
Wiley & Sons, 1995.
[8] [Varios artı́culos: ‘· distribution’]. En Wikipedia, The Free Encyclopedia.
Consultados en Julio 2016.

[9] Numpy and Scipy Documentation. Consultado en Julio 2016 de

[Link]
[10] Flajolet, P.; Gardy, D.; Thimonier, L. Birthday Paradox, coupon collectors,
caching algorithms and self-organizing search. Discrete Applied Mathema-
tics 39 (1992) 207-229

[11] Gentle, J. E. Random Number Generation and Monte Carlo Methods. 2nd.
ed. [Link].: Springer, 2005.

También podría gustarte

Clases de Probabilidad 2017: Notas y Ejercicios
Aún no hay calificaciones
Clases de Probabilidad 2017: Notas y Ejercicios
72 páginas
Clases de Probabilidad 2018 - Ing. Bello
Aún no hay calificaciones
Clases de Probabilidad 2018 - Ing. Bello
82 páginas
Resumen de Probabilidad y Estadística B
Aún no hay calificaciones
Resumen de Probabilidad y Estadística B
38 páginas
Resumen EstadÃ Stica III - V2 3
Aún no hay calificaciones
Resumen EstadÃ Stica III - V2 3
152 páginas
Métodos Estadísticos de La Ingeniería: Mathieu Kessler
Aún no hay calificaciones
Métodos Estadísticos de La Ingeniería: Mathieu Kessler
147 páginas
Ricardo A. Maronna - Probabilidad y Estadística Elementales
Aún no hay calificaciones
Ricardo A. Maronna - Probabilidad y Estadística Elementales
183 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
184 páginas
Introducción a Probabilidad y Estadística
100% (1)
Introducción a Probabilidad y Estadística
184 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
184 páginas
Introducción a Probabilidad y Estadística
Aún no hay calificaciones
Introducción a Probabilidad y Estadística
18 páginas
Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía
Aún no hay calificaciones
Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía
236 páginas
Rinconproba 2
Aún no hay calificaciones
Rinconproba 2
247 páginas
Introducción A La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone
67% (9)
Introducción A La Teoría de La Probabilidad, Paul G. Hoel, Sidney Port, Charles Stone
217 páginas
Libro Estadistica
Aún no hay calificaciones
Libro Estadistica
130 páginas
Fundamentos de Probabilidad y Estadística
100% (1)
Fundamentos de Probabilidad y Estadística
229 páginas
Apuntes de Estadistica Especialidad Telematica PDF
100% (1)
Apuntes de Estadistica Especialidad Telematica PDF
310 páginas
Estadistica I - Notas 2022
Aún no hay calificaciones
Estadistica I - Notas 2022
157 páginas
Guia Estudio Estadistica1
0% (1)
Guia Estudio Estadistica1
73 páginas
Estadística Descriptiva y Probabilidades
Aún no hay calificaciones
Estadística Descriptiva y Probabilidades
253 páginas
Resumen de Estadística III - UN Córdoba
Aún no hay calificaciones
Resumen de Estadística III - UN Córdoba
102 páginas
Curso Intermedio Probabilidad Luis Rincon
Aún no hay calificaciones
Curso Intermedio Probabilidad Luis Rincon
397 páginas
Curso Intermedio de Probabilidad UNAM
Aún no hay calificaciones
Curso Intermedio de Probabilidad UNAM
397 páginas
Curso Intermedio de Probabilidad-Luis Rincón
100% (1)
Curso Intermedio de Probabilidad-Luis Rincón
397 páginas
Promedios Históricos 2020-2024
Aún no hay calificaciones
Promedios Históricos 2020-2024
1 página
Resumen de Clases Recortado
Aún no hay calificaciones
Resumen de Clases Recortado
194 páginas
Carta El Tio Pizza
Aún no hay calificaciones
Carta El Tio Pizza
12 páginas
La Leyenda de Zanjon Profundo
Aún no hay calificaciones
La Leyenda de Zanjon Profundo
2 páginas
9 - File System II
Aún no hay calificaciones
9 - File System II
106 páginas
7 - Memoria I
Aún no hay calificaciones
7 - Memoria I
93 páginas
7 - Memoria II - Locks
Aún no hay calificaciones
7 - Memoria II - Locks
94 páginas
Analisis Numerico Resumen Final
Aún no hay calificaciones
Analisis Numerico Resumen Final
5 páginas
Budín de Limón - 231212 - 180907
Aún no hay calificaciones
Budín de Limón - 231212 - 180907
12 páginas
Metodología de La Investigación Procesamiento de Datos
Aún no hay calificaciones
Metodología de La Investigación Procesamiento de Datos
5 páginas
Actividades de Conjuntos Matemáticos
Aún no hay calificaciones
Actividades de Conjuntos Matemáticos
2 páginas
Ecuaciones Diferenciales y Regla de Cadena
Aún no hay calificaciones
Ecuaciones Diferenciales y Regla de Cadena
7 páginas
Actividad Evaluativa Matemáticas 2
Aún no hay calificaciones
Actividad Evaluativa Matemáticas 2
6 páginas
Searle Taxonomía de Los Actos Ilocucionarios
100% (1)
Searle Taxonomía de Los Actos Ilocucionarios
45 páginas
01 - Teoria de Muestreo
Aún no hay calificaciones
01 - Teoria de Muestreo
6 páginas
Introducción al VHDL y HDLs
Aún no hay calificaciones
Introducción al VHDL y HDLs
16 páginas
Algoritmos de Búsqueda en Grafos
Aún no hay calificaciones
Algoritmos de Búsqueda en Grafos
7 páginas
Definición y Ejemplos de Equiprobabilidad
Aún no hay calificaciones
Definición y Ejemplos de Equiprobabilidad
12 páginas
Examen Matemáticas Galicia Oposición 2021 - Opción 1
Aún no hay calificaciones
Examen Matemáticas Galicia Oposición 2021 - Opción 1
9 páginas
Formulas Ingenieria Economica
100% (2)
Formulas Ingenieria Economica
1 página
Examen Parcial de Dinámica y Mecánica
Aún no hay calificaciones
Examen Parcial de Dinámica y Mecánica
2 páginas
Progresion 10
Aún no hay calificaciones
Progresion 10
10 páginas
Examen Unidad 01 Sec C
Aún no hay calificaciones
Examen Unidad 01 Sec C
3 páginas
Unidad-Didactica (Reacción Química)
Aún no hay calificaciones
Unidad-Didactica (Reacción Química)
5 páginas
Protocolo Resultados WISC V
100% (3)
Protocolo Resultados WISC V
2 páginas
Ejercicios de Permutación y Combinación
Aún no hay calificaciones
Ejercicios de Permutación y Combinación
24 páginas
T3 MatematicaBasica EliutDavidVilelaCampos
Aún no hay calificaciones
T3 MatematicaBasica EliutDavidVilelaCampos
8 páginas
Unidades de Medida en Telecomunicaciones
Aún no hay calificaciones
Unidades de Medida en Telecomunicaciones
5 páginas
Soluciones de Navier-Stokes: Analíticas y Numéricas
Aún no hay calificaciones
Soluciones de Navier-Stokes: Analíticas y Numéricas
2 páginas
Martes Pertenencia y No Pertenencia Ii
100% (1)
Martes Pertenencia y No Pertenencia Ii
2 páginas
Secuencias Numéricas hasta el 1000
80% (5)
Secuencias Numéricas hasta el 1000
3 páginas
Ejercicios de Flujo Eléctrico y Campos
Aún no hay calificaciones
Ejercicios de Flujo Eléctrico y Campos
4 páginas
Problemas Resueltos Ley de Faraday y Lenz
Aún no hay calificaciones
Problemas Resueltos Ley de Faraday y Lenz
15 páginas
Prueba Septimo Matematicas
Aún no hay calificaciones
Prueba Septimo Matematicas
4 páginas
Cómo Usar La Ecuación de Clausius-Clapeyron.
Aún no hay calificaciones
Cómo Usar La Ecuación de Clausius-Clapeyron.
2 páginas
Tema 14 Probabilidad
Aún no hay calificaciones
Tema 14 Probabilidad
26 páginas
S01.s1 - Resolver Ejercicios
100% (1)
S01.s1 - Resolver Ejercicios
3 páginas
Guía de Estadística Inferencial: Valor Esperado y Varianza
Aún no hay calificaciones
Guía de Estadística Inferencial: Valor Esperado y Varianza
4 páginas
Funciones Inyectivas: Diagramas y Ejemplos
Aún no hay calificaciones
Funciones Inyectivas: Diagramas y Ejemplos
46 páginas