Probabilidad Clases
Probabilidad Clases
Índice
1. Consideraciones previas 5
1.1. *Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3. Sobre los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3. Grundbegriffe 9
3.1. Espacio de probabilidad - Axiomas K. . . . . . . . . . . . . . . . 9
3.2. *Relación axiomas K - frecuencia relativa . . . . . . . . . . . . . 11
3.3. Interludio: álgebra de eventos . . . . . . . . . . . . . . . . . . . . 11
3.4. Corolarios, teoremas, propiedades... . . . . . . . . . . . . . . . . . 13
3.5. Espacios discretos . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.5.1. Espacios discretos (finitos o numerables) . . . . . . . . . . 15
3.5.2. Equiprobabilidad - Fórmula de Laplace . . . . . . . . . . 16
3.5.3. Espacios numerables . . . . . . . . . . . . . . . . . . . . . 17
3.6. Introducción a espacios continuos . . . . . . . . . . . . . . . . . . 18
1
5.2.5. *Estadı́stica de Fermi-Dirac . . . . . . . . . . . . . . . . . 29
5.2.6. Comparación . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7. Simulación 39
7.1. Definiciones y teoremas . . . . . . . . . . . . . . . . . . . . . . . 39
7.2. Números aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7.3. Simulación de VA discretas . . . . . . . . . . . . . . . . . . . . . 40
7.4. Simulación de VA continuas y mixtas . . . . . . . . . . . . . . . . 42
[Link] 52
10.1. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
10.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.3. Covarianza, ı́ndice de correlación . . . . . . . . . . . . . . . . . . 54
10.4. Recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 56
10.5. Desigualdades, Ley débil de grandes números . . . . . . . . . . . 57
[Link] de V.A. 59
11.1. Definiciones y aclaraciones previas . . . . . . . . . . . . . . . . . 59
11.2. Teoremas para transformaciones de V.A. . . . . . . . . . . . . . . 59
[Link] 65
12.1. Variables condicionales . . . . . . . . . . . . . . . . . . . . . . . . 65
12.2. Modelos discreto continuos . . . . . . . . . . . . . . . . . . . . . 66
12.3. Momentos y función de regresión . . . . . . . . . . . . . . . . . . 67
[Link] condicional 70
13.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
13.2. Iterpretación geométrica . . . . . . . . . . . . . . . . . . . . . . . 72
13.3. Ejemplos varios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2
[Link] Bernoulli 75
14.1. Procesos y proceso Bernoulli . . . . . . . . . . . . . . . . . . . . 75
14.2. Distribuciones asociadas . . . . . . . . . . . . . . . . . . . . . . . 75
14.3. Proceso Bernoulli generalizado . . . . . . . . . . . . . . . . . . . 77
14.4. Miscelánea tóxica . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
14.4.1. Coleccionista . . . . . . . . . . . . . . . . . . . . . . . . . 78
14.4.2. Rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
14.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
[Link] de Poisson 83
15.1. Procesos puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . 83
15.2. Proceso puntual de Poisson . . . . . . . . . . . . . . . . . . . . . 84
15.3. Pérdida de memoria . . . . . . . . . . . . . . . . . . . . . . . . . 86
15.4. *Waiting time paradoxes . . . . . . . . . . . . . . . . . . . . . . . 88
15.5. Más propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
15.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3
Burocracia y otras hierbas
Nota aclaratoria
Estas notas se escribieron para uso personal, como ayuda para dar la cla-
se, y están en continua evolución. Le faltan consistencia de notación, gráficos,
ejemplos. No se recomiendan como material de base para aprender la materia.
No tienen intención de reemplazar la clase ni mucho menos un buen libro
(como los que se sugieren en la bibliografı́a), el objetivo es simplemente ahorrarle
al que lo considere conveniente la toma de apuntes; y facilitarle un poco la
cursada a aquellos con problemas para asistir.
Asistencia
Se tomará lista todas las clases solo con fines estadı́sticos. No se dejará
libre a ningún alumno.
Los condicionales y cambios de curso deben avisar en el curso al que van
a asistir por cortesı́a, y al momento de rendir hacerlo en el curso que se
anotaron originalmente.
Evaluación
Se toma un parcial de 5 ejercicios, con al menos 3 bien se aprueba. El
parcial tiene 2 instancias de recuperación. Se agregan las fechas diferidas
que hagan falta para quienes presenten certificado de examen de otra
materia, certificado de trabajo o certificado médico.
4
1. Consideraciones previas
1.1. *Antecedentes históricos
Armar lı́nea de tiempo central con los probabilistas, en paralelo rigor y teorı́a
de medida, unirlas en Kolmogorov.
Fuentes: Grimmet-Stirzaker, Jacovkis, biografı́as de Wikipedia
1550 (pero publicado en 1663) Gerolamo Cardano (Ita) (el de ecuación cúbica),
Liber de ludo aleae (sobre los juegos de azar)
1654 Blaise Pacal (Fra) y Pierre de Fermat (Fra) discuten por carta el problema
de los puntos, luego en 1657 Huygens (Hol) publica De ratiociniis in ludo
aleae (Razonamientos en los juegos de azar). Introducen el concepto de
valor esperado
1713 de Jacob Bernoulli (Sui) (el que descubrió e, muerto en 1705) publican (un
sobrino) Ars conjectandi (Arte de la conjetura). Fruto de leer Huygens y
discutir con Leibniz (Ale) y con su hermano Johann, incluye el Teorema
de Bernoulli: la primera ley de los grandes números
18xx Por los mismos años: Leonhard Euler (Ale), Carl Friedrich Gauss (Ale),
Joseph-Louis de Lagrange (Ita), Adrien-Marie Legendre (Fra), Siméon De-
nis Poisson (Fra)
1919 Richard von Mises (Aus-Hun) introduce el espacio muestral y define la
probabilidad como la frecuencia relativa.
18xx Rigor matemático Durante el [Link] comienza a formalizarse con rigor
la matemática, comenzando por los trabajos de euclides. Augustin-Louis
Cauchy (Fra), Bernhard Riemann (Ale), Karl Weierstrass (Ale) (no tuvo
tı́tulo universitario)
19xx Teorı́a de medida A principios del [Link] la desarrollan Émile Borel (Fra),
Henri Lebesgue (Fra), Johann Radon (Aus), Maurice René Fréchet (Fra)
1933 Andrey Kolmogorov (Rus), Grundbegriffe der Wahrscheinlichkeitsrech-
nung
5
1.2. Bibliografı́a
La historia es como cosa sagrada, porque ha de ser verdadera, y
donde está la verdad, está Dios, en cuanto a verdad; pero, no
obstante esto, hay algunos que ası́ componen y arrojan libros de sı́
como si fuesen buñuelos
—No hay libro tan malo —dijo el bachiller—, que no tenga algo
bueno.
—No hay duda en eso —replicó don Quijote—, pero muchas veces
acontece que los que tenı́an méritamente granjeada y alcanzada
gran fama por sus escritos, en dándolos a la estampa la perdieron
del todo o la menoscabaron en algo.
Se recomienda intentar seguir las clases con los apuntes, vamos a dar todo
lo necesario para tener una buena base teórica y poder hacer los ejercicios.
Si hace falta, consultar los contenidos con los Borradores de Grynberg o el
Maronna. El Maronna es más conciso, es un libro publicado (menos errores),
pero en algunos temas no presenta todo lo que damos en el curso y en algunas
cosas puntuales usa otra notación. Los borradores son borradores, pero tienen
la ventaja de cubrir todos los temas del curso y casi en el mismo orden y estilo
que seguirán las clases.
Los dos textos mencionados y el Grinstead-Snell son de distribución libre y
gratuita.
Para el curso
Ambos textos son de distribución libre y gratuita. El de Grynberg se reco-
mienda solo para la parte de probabilidad (guı́as 1 a 8).
Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], 2013
Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995
Garcı́a, J. M. Apuntes de esstadı́stica. Buenos Aires: [digital], 2019
Otros
El de Snell-Grinstead es de distribución libre y gratuita. El de Jacovkis lo
publica Eudeba, es barato. Los de Feller creo que están agotados.
(El clásico t.I): Feller, W. An Introduction to Probability Theory and Its
Applications, Vol. I 2da ed. New York: John Wiley & Sons, 1957.
(El clásico [Link]): Feller, W. An Introduction to Probability Theory and
Its Applications, Vol. II 2da ed. New York: John Wiley & Sons, 1971.
(Muy interesante, lleno de simulaciones y gráficos): Grinstead,
C., Snell, J. Grinstead and Snell’s Introduction to Probability. 1ra. ed.
[digital]:[digital] 2006.
(Para profundizar): Grimmet, G., Stirzaker, D. Probability and Random
Processes. 3ra. ed. Gran Bretaña: Oxford University Press, 2001.
6
(Para formalizar duro): Billingsley, P. Probability and Measure. 3ra.
ed. Estados Unidos: John Wiley & Sons, 1995.
(De difusión): Jacovkis, P. Azar, Ciencia y Sociedad. 1ra. ed. Buenos
Aires: Eudeba, 2012
Fórmula de Stirling:
√ n n
n! ∼ 2πn cuando n grande
e
La fórmula de Stirling la usaremos solo para demostraciones. Es una apro-
ximación asintótica, la relación entre ambas lados del ∼ tiende a 1 cuando
n tiende a infinito.
7
2.2. Integrales
Repasar integrales en R2 y esas cosas.
n: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Cara
Ceca
Tirar la moneda
Elegir un número
Tirar 1 vez la hasta observar la
en [0, 1) “al azar”,
moneda, registrar primera cara,
registrar el número
cara o ceca registrar cantidad
elegido
de lanzamientos
Resultados posibles
Preguntas
Probabilidades
8
3. Grundbegriffe
Die Wahrscheinlichkeitstheorie als mathematische Disziplin soll und
kann genau in demselben Sinne axiomatisiert werden wie die
Geometrie oder die Algebra.
Andrey Kolmogorov
(c) A1 , A2 ∈ A ⇒ A1 ∪ A2 ∈ A
S∞
(d) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo es necesario exigir (d) si Ω tiene infinitos elementos)
Teorema 3.3 (Sobre las σ-álgebra). Ası́ definidas, se demuestra que son cerra-
das por intersecciones (finitas o numerables)
(e) A, B ∈ A ⇒ A ∩ B ∈ A
T∞
(f) A1 , A2 , A3 . . . ∈ A ⇒ i=1 Ai ∈ A
(solo tiene gracia la propiedad (f) si Ω tiene infinitos elementos)
9
Ejemplo 3.5 (σ-Álgebras - práctico). En la libreta de Ignacio todas las notas
son 2, 4 o 5. Realizamos el experimento: se elige una materia y le preguntamos
qué nota sacó. Indique los posibles resultados y construya una σ-álgebra lo más
chica posible, una que sirva para distinguir si aprobó, y por último una lo más
grande posible.
Solución: Para resolver primero definimos el espacio muestral Ω = {2, 4, 5}.
El álgebra más pequeña posible siempre es la que tiene a vacı́o y al propio
espacio muestral
A1 = {∅, {2, 4, 5}}
Esa σ-álgebra no nos sirve para responder ninguna pregunta, si queremos saber
si aprobó debemos incluir el subconjunto {4, 5}, y si incluimos ese subconjunto
debemos también incluir su complemento y luego las posibles uniones que apa-
rezcan para satisfacer los requerimientos (a) hasta (c) de la definición (a (d) no
le damos bola porque tenemos Ω finito). Nos queda:
Si por último queremos poder saber la nota exacta que sacó, debemos agregar
el 4 y el 5 sueltos (pero como subconjuntos), y sus complementos y uniones.
Queda (reordenando términos):
A3 = {∅, {2}, {4}, {5}, {4, 5}, {2, 5}, {2, 4}, {2, 4, 5}}
Notar que A3 tiene 8 subconjuntos, y que es la σ-álgebra más grande que po-
demos formar con el Ω dado.
Nota 3.6 (Sobre σ-álgebras). Podemos pensar a la σ-álgebra como una familia
de subconjuntos de Ω con buenas propiedades de cierre.
A los subconjuntos de Ω que estén en la σ-álgebra, A ∈ A, los llamaremos
eventos aleatorios o simplemente eventos.
Convención 3.7 (Partes de Ω). En el curso usaremos cuando no se aclare en
el ejercicio la σ-álgebra lo más grande posible. A estará compuesta por todos
los subconjuntos que existan de Ω, con sus uniones e intersecciones (finitas
o numerables) y sus complementos; incluyendo al subconjunto vacı́o ∅ y a Ω
mismo. Usaremos la notación 2Ω y el nombre partes de Omega para referirnos
a esa σ-álgebra. (ver Grimmet [5] power set, subtı́tulo 1.2 ejemplo 8).
Si Ω es un conjunto finito vale que |2Ω | = 2|Ω| .
Definición 3.8 (Medida de probabilidad). Una medida de probabilidad P sobre
(Ω, A) es una función P : A → R que satisface los siguientes axiomas (axiomas
de Kolmogorov):
1. Para cada A ∈ A se cumple P(A) ≥ 0
2. P(Ω) = 1
10
4. Continuidad: Para cada sucesión decreciente de eventos tal que al inter-
sectarlos todos obtenemos el conjunto vacı́o
∞
\
A1 ⊃ A2 ⊃ A3 ⊃ . . . , Ai = ∅
i=1
lı́m P(An ) = 0
n→∞
11
Complemento: Ac = A := {ω ∈ Ω : ω ∈
/ A}
Disjuntos (n): Diremos Ai disjuntos si Ai ∩ Aj = ∅ ∀i ̸= j
Conmutativa 2: A ∩ B = B ∩ A
Asociativa 1: (A ∪ B) ∪ C = A ∪ (B ∪ C)
Asociativa 2: (A ∩ B) ∩ C = A ∩ (B ∩ C)
Distributiva 1: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Distributiva 2: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Identidad 1: A ∪ ∅ = A
Identidad 2: A ∩ Ω = A
Idempotencia 2: A ∩ A = A
Dominación 1: A ∪ Ω = Ω
Dominación 2: A ∩ ∅ = ∅
Absorción 1: A ∪ (A ∩ B) = A
Absorción 2: A ∩ (A ∪ B) = A
Inters. como diferencia: A ∩ B = A \ (A \ B)
De Morgan 1: (A ∪ B)c = Ac ∩ B c
De Morgan 2: (A ∩ B)c = Ac ∪ B c
Doble complemento: (Ac )c = A
Complemento Omega: Ωc = ∅
Complemento Vacı́o: ∅c = Ω
12
[n]
Evento en partes: Si {Ai } es una partición, B = ∪i=1 (B ∩ Ai ) (unión
disjunta)
Antisimetrı́a: A ⊂ B ∧ B ⊂ A ⇔ A = B
Unicidad: A ∪ B = Ω ∧ A ∩ B = ∅ ⇔ Ac = B
Nota 3.14 (Diagramas de Venn). Los diagramas de Venn no son una demos-
tración (ver Arquı́medes, El Método, preámbulo dirigido a Eratóstenes). Sin em-
bargo, resultan muy prácticos para recordar y entender los teoremas del álgebra
de eventos, y en el curso van como piña.
13
1. 1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ) pasar restando y se demuestra
el teorema (notar que la unión de A y Ac es unión disjunta, por eso vale
sumar las probabilidades). □
A=A∩B
Además
B =A∪B\A
y la unión es disjunta. Aplicando el axioma de aditividad:
A ∪ B = A ∪ (B \ (A ∩ B))
8. Ver Grynberg [1] Espacios de probabilidad Teorema 1.8. Ver Grimmet [5]
subtı́tulo 1.3 lemma 5.
S
9. Definimos la sucesión Rn := m>n Am , n ≥T1. La sucesión es decreciente
∞
(evidente por construcción R1 ⊃ R2 . . .) y n=1 Rn = ∅ (pues los Ai son
disjuntos dos a dos), por lo que se puede aplicar el último axioma:
lı́m P(Rn ) = 0
n→∞
14
3.5. Espacios discretos
3.5.1. Espacios discretos (finitos o numerables)
Demostració[Link] un lado es muy sencilla, basta con probar que que la defini-
ción P(A) := ω∈A p(ω) cumple con los 4 axiomas. Para el otro lado (justificar
el Todos que encabeza el enunciado) no se dará demostración, creo que la da
Grynberg en sus materias de posgrado como un teorema de extensión.
Nota 3.20 (Sobre la función de probabilidad puntual). A la hora de generar un
modelo, construir una medida que vaya de la σ-álgebra al [0, 1] y satisfaga los
axiomas no es sencillo. Pero cuando el espacio muestral tiene una cantidad de
elementos finita (o infinita numerable), la tarea se simplifica a asignarle un peso
(o masa) a los eventos elementales de Ω mediante la función de probabilidad
puntual p. Simplemente debemos tener cuidado que la suma total cierre a 1.
Luego a cualquier evento A ∈ A se le asigna como probabilidad la suma de las
probabilidades puntuales de sus elementos. Lo podemos interpretar fı́sicamente:
la masa de un cuerpo (evento A) es la suma de la masa de sus átomos (eventos
elementales ω)
Notar la diferencia importante entre la función de probabilidad puntual (p
minúscula) y la medida de probabilidad (P mayúscula): p se aplica a elementos
ω de Ω; P aplica a eventos A de la σ-álgebra A.
Ejemplo 3.21 (Lanzamiento de una moneda). Lanzamos una moneda una vez,
llamamos A: salió cara, E: salió ceca, tenemos Ω = {A, E}, A = {∅, {A}, {E}, Ω}.
Como A y E son complementarios, podemos asignar
15
(c) Probabilidad de que el resultado sea mayor o igual a 5
Solución Nombremos los eventos, A: salió un as, B: el resultado es par, C: el
resultado es mayor o igual a 5. Tendremos
P(B) = P({2} ∪ {4} ∪ {6}) = P({2, 4, 6}) = 2/21 + 4/21 + 6/21 = 12/21
P(C) = P({5} ∪ {6}) = P({5, 6}) = 5/21 + 6/21 = 11/21
p(ω) = 1/|Ω| ∀ω ∈ Ω
P(A) = |A|/|Ω| ∀A ∈ A
16
Solución Completar el ejemplo.
Ejemplo 3.26 (Lanzamiento de dos dados extraños). Se lanzan dos dados y
se registra el resultado en un vector Ω = {ω : ω = (i, j), i ≤ j, i, j = 1 . . . 6}
(anoto siempre primero el menor resultado), se asigna a todos los resultados la
misma probabilidad. Calcular
(a) La probabilidad de obtener doble 6
(b) La probabilidad de que ambos dados den el mismo número
Ω = {ω : ω = E n−1 A, n ≥ 1} ∪ {E ∞ }
Usamos la notación de potencia para describir que la letra E se repite tantas
veces. Tenemos por consigna P({E n−1 A}) = p(E n−1 A) = (1 − r)n−1 r.
Calculemos para entender un poco el modelo la probabilidad de sacar cara
en el primer lanzamiento:
P({A}) = p(A) = r
17
como los eventos son disjuntos, sacamos la unión infinita para afuera como serie
y seguimos...
∞ ∞
X X i r(1 − r)
··· = (1 − r)2i+1 r = r(1 − r) (1 − r)2 =
i=0 i=0
1 − (1 − r)2
Ejercicios
PyE A: hasta acá pueden hacer ejercicios: 1.2 a 1.6, 1.8.
5 i 1
PyE B: también pueden hacer 1.1, 1.7 usando que P(Ai ) = 6 6, 1.9.
18
Ejemplo 3.30. Tomamos un número uniforme, calcular:
(a) La probabilidad de que el número 9 sea la primera cifra decimal del número
|A|
P(A) := ∀A ∈ β(Λ)
|Λ|
Ejercicios
PyE B: pueden hacer ejercicio 1.10, 1.19.
19
4. Independencia y probabilidad condicional
4.1. Independencia estocástica
Definición 4.1 (Independencia estocástica). Una familia de eventos F ⊂ A se
dice independiente si se cumple
!
\ Y
P A = P(A)
A∈S A∈S
20
*Generalización: (lo que sigue no necesita leerlo si entendió bien los casos
anteriores, es más fácil imaginar como se extiende más eventos que formalizarlo
- en clase no se da) Sea A una familia de eventos {Ai : i ∈ I} independiente.
Sea B una familia de eventos {Bi : i ∈ I, Bi = Ai ⊻ Bi = Aci ∀i ∈ I}, i.e.
B se construye a partir de tomar los eventos de A y complementar algunos de
ellos (o ninguno o todos). Entonces B es una familia independiente. (Ver [6], ej.
1.11.17)
Demostración. (tampoco aporta mucho S a fines del curso la demostración, no se
dará en clase) Tomemos C = {Acj (∪i∈I, i̸=j Ai )}, i.e. la familia A tomando
complemento en uno solo de ellos. Para demostrar que C es independiente bas-
tará con verificar, de las 2n − n − 1 ecuaciones aquellas donde aparezca el evento
que cambiamos Acj . Notar que
\
(Aj ∪ Acj ) (∩i̸=j,i∈K Ai ) = (∩i̸=j,i∈K Ai ) ∀K ⊂ I
como esto vale para todo K ⊂ I demostramos que C es una familia independien-
te. Si ahora tomamos como punto de partida a C, complementamos uno de sus
eventos y tenemos una nueva familia independiente, y ası́ complementando de a
uno cuantas veces sea necesario seguiremos obteniendo familias independientes
de eventos.
21
4.2. Probabilidad condicional
Definición 4.10 (Probabilidad condicional). Sean A, B ∈ A, con P(A) > 0,
definimos:
P(B ∩ A)
P(B|A) :=
P(A)
El valor definido recién se llama probabilidad condicional de B dado A, o más
abreviado probabilidad de B dado A, o también probabilidad de B sabiendo A
Convención 4.11 (Probabilidad condicional). Sean A, B eventos genéricos,
interpretamos que debemos buscar la probabilidad condicional P (B|A) cuando
leamos frases del tipo:
Dado que ocurrió A, calcule la probabilidad de B.
Hallar la probabilidad de B si se sabe que ocurrió A.
Se realiza el experimento y resulta A. ¿Cuál es la probabilidad de B?.
Se debe tener cuidado con no confundir en el lenguaje informal P (B ∩ A) con
P (B|A), suelen dar lugar a confusión.
Teorema 4.12 (Probabilidad condicional es probabilidad). Sea A ∈ A con
P(A) > 0, definimos Q(B) := P(B|A) para todo B ∈ A, vale que Q es una
medida de probabilidad sobre A y (Ω, A, Q) es un espacio de probabilidad.
Demostración. Verificar que Q cumple los 4 axiomas.
Ejemplo 4.13 (Aplicación). El hecho de que la probabilidad condicional sea
una probabilidad nos permite usar todo lo que sabemos de probabilidades. Por
ejemplo, si P(B|A) = 0.7, podemos inmediatamente calcular la probabilidad de
su complemento:
P(B|A) = 0.7 → P(B c |A) = 0.3
Ojo,
P(B|A) = 0.7 → P(B|Ac ) = ni idea
Otro ejemplo rápido:
22
B: el resultado es par, B = {2, 4, 6}
calculamos lo pedido
Ejemplo 4.17 (Uno de bolas). Una urna contiene r bolas rojas y n bolas negras
(con n ≥ 3), se extraen sin reposición 3 bolas, ¿cuál es la probabilidad de que
las 3 sean negras?
Solución Sea Ni : la bola i es negra, aplicando la regla del producto
n n−1 n−2
P(N1 ∩ N2 ∩ N3 ) = · · · = · ·
n+r n−1+r n−2+r
Ejemplo 4.18 (Uno de cartas). Jugando al truco ¿cuál es la probabilidad de
que me repartan primero el as de espadas, luego el 7 de espadas y por último
otra carta de espadas (en ese orden)?
Solución
1 1 8
P(A ∩ B ∩ C) = · · · = · ·
40 39 38
Demostración.
Q(X ∩ B) P(X ∩ B|A) P(X ∩ B ∩ A)/P(A)
Q(X|B) = = = = P(X|A ∩ B)
Q(B) P(B|A) P(B ∩ A)/P(A)
23
Demostración. Ver Grynberg [1], Probabilidad condicional...,
S subtı́tulo 1.2. El
procedimiento es sencillo, escribir B = B ∩ Ω = B ∩ ( i≥1 Ai ), calcular la pro-
babilidad aplicando aditividad y reemplazar las intersecciones por condicionales
X X
P(B) = · · · = P(B ∩ Ai ) = P(B|Ai )P(Ai )
i≥1 i≥1
24
Ejemplo 4.24 (Falsos positivos). Una enfermedad afecta a 1/100000 personas.
Se tiene un test que diagnostica como positivo a los enfermos con probabilidad
0.99, pero también diagnostica como positivo a los sanos con probabilidad 0.02.
Toma una persona al azar, le hace el test y da positivo, ¿cuál es la probabilidad
de que esté enfermo?
Solución Sean D+ : diagnóstico positivo, E: enfermo, se tiene
P(D+ |E)P(E)
P(E|D+ ) = =
P(P (D+ |E)P(E) + P(D+ |E c )P(E c )
0.99 · 1/100000
= ≃ 0.005
0.99 · 1/100000 + 0.02 · 99999/100000
Este ejemplo es habitual en libros de la materia y libros de difusión cientı́fica.
Muestra que algo que uno supondrı́a como muy eficiente (un test con 99 % de
precisión y solo 2 % de falsos positivos) si se aplica al voleo puede llevar a
conclusiones erróneas. Por eso en algunos casos es necesario tener en cuenta
otras evidencias o realizar más pruebas.
Ejercicios
PyE A: pueden hacer ejercicios: 1.18, 1.20, 1.22 a 1.27. Pueden hacer el 1.17
optativo.
PyE B: pueden hacer ejercicio 1.17, se recomienda en el punto b usar notación
Pk (A) para la probabilidad de que la partida pase la inspección; ejercicio 1.21.
25
5. Bonustrack: Análisis combinatorio
5.1. Generalidades
En espacios finitos con equiprobabilidad (Laplace) calcular la probabilidad
de un evento se reduce a saber contar, P(A) = |A|/|Ω| o coloquialmente casos
favorables / casos totales. Este tipo de problemas es muy común en juegos de
azar, pero se aplicó también a áreas de la fı́sica como la “mecánica estadı́stica”.
Aunque no sea estrictamente un tema de teorı́a de probabilidad, veremos algunas
técnicas para logar simplicity and economy of thought [3] a la hora de contar la
cantidad de elementos de un conjunto.
La mayorı́a de este capı́tulo lo encuentra con más detalle y más ejemplos en
[1], Espacios de Probabilidad, Elementos de Análisis Combinatorio capı́tulos 3
y 4. También en [3] capı́tulos II.5 y IV.2 hay muchı́simos teoremas y ejemplos
de mecánica estadı́stica (esta clase de problemas la llama occupancy problem)
que exceden el alcance del curso.
Teorema 5.1 (Regla del producto). Sean A1 , A2 , . . . An conjuntos finitos, el
producto cartesiano (cuyos elementos son vectores) de ellos tiene cardinal el
producto de cardinales:
#Ords = n(n − 1) · · · 2 · 1 = n!
26
Ejemplo 5.5. ¿Cuántas palabras se pueden formar con las letras a, a, a, a, b,
b, b? Respuesta: De los 7 lugares para poner letras debo elegir 4 de ellos donde
colocar las letras a, una vez hecho eso el resto
de los lugares lo lleno con b. La
cantidad de palabras que puedo formar es 74 = 35
Ejemplo 5.6. En un pequeño paı́s viven 100 personas y deben elegir 11 dipu-
tados, ¿de cuántas formas disintas pueden hacerlo? Respuesta: Debemos elegir
una subpoblación de 11 de los 100 sin importar en qué orden los elijo, se puede
hacer de 100
11 = 141629804643600 formas distintas.
Ejercicios
Hasta acá pueden hacer ejercicios: 1.13, 1.14.
27
5.2.1. Estadı́stica de Maxwell-Boltzmann
Se distribuyen r bolas (partı́culas) en n urnas (celdas) numeradas. Se impone
la hipótesis: las bolas son distinguibles y todas las configuraciones distintas son
equiprobables. La forma más sencilla de modelar cada posible evento elemental
es escribiendo un vector: ω = (x1 , x2 . . . xr ), donde xi representa el número de
urna en la que se ubica la bola i. Como cada bola puede estar en cualquiera de
las n urnas, las configuraciones posibles son |Ω| = nr . La probabilidad de cada
evento elemental será P ({ω}) = 1/nr .
28
elementales. Cualquier otro ejemplo que aparezca en la guı́a o evaluaciones será
forzado (para bajarnos del ascensor a la B-E hay que ponerse de acuerdo, para
meter gatos en cajas a la B-E no alcanza con que sea de noche), y debe in-
dicar el enunciado claramente que las cosas se distribuyen con un modelo de
indistinguibles y con todas las configuraciones distintas equiprobables.
5.2.6. Comparación
La siguiente tabla resume los modelos que usamos en el curso, se puede
extender también a Fermi-Dirac.
5.2.7. Aplicaciones
Ejemplo 5.11 (Cantidad de bolas en una urna especificada). (Ver [1] Espacios
de Probabilidad... cap. 4). Sea Ua,k : hay exactamente k bolas en la urna a (con
0 ≤ k ≤ r). Se tiene para los distintos modelos (se explicó en clase de dónde
salen las fórmulas):
k r−k
r 1 1
PM B (Ua,k ) = 1−
k n n
r−k+n−2
n−2
PBE (Ua,k ) = r+n−1
n−1
29
k l r−k−l
r! 1 1 2
PM B (Ua,k ∩ Ub,l ) = 1−
k!l!(r − k − l)! n n n
k l m r−k−l−m
r! 1 1 1 3
PM B (Ua,k ∩Ub,l ∩Uc,m ) = 1−
k!l!m!(r − k − l − m)! n n n n
r−k−l+n−3
n−3
PBE (Ua,k ∩ Ub,l ) = r+n−1
n−1
r−k−l−m+n−4
n−4
PBE (Ua,k ∩ Ub,l ∩ Uc,m ) = r+n−1
n−1
λk
PM B (Ua,k ) → e−λ
k!
k
1 1
PBE (Ua,k ) → 1−
1+λ 1+λ
Ejemplo 5.12 (Problema de los cumpleaños). Si queremos saber la probabi-
lidad, en el modelo de M-B, de “C: ninguna urna tiene más de una bola”, lo
calculamos:
(n)r n 1
P(C) = r =
n (n − r)! nr
Si las r bolas son personas y las urnas la fecha de nacimiento, elegida al azar
entre n = 365 (o n = 366) opciones, podemos calcular la probabilidad de que
en un grupo de r personas no haya dos que cumplan el mismo dı́a como:
(365)r 365 1
P(Cr ) = =
365r (365 − r)! 365r
Esta probabilidad ya es P(Cr ) < 0.5 para r = 23, del orden de 0.03 para r =
50 y de 0.01 para r = 70. Moraleja: No le apueste a un docente malintencionado
que en un curso no hay dos personas con el mismo cumpleaños porque pierde
seguro.
El modelo es simplemente una aproximación, la hipótesis de elección al azar
no se cumple ya que la cantidad de dı́as en el año no es un número fijo, y la distri-
bución de nacimientos no es del todo uniforme (ver [Link]
2006/12/19/business/[Link]?_r=2 y [Link]
com/2012/05/[Link]), estadı́sticas en
estados unidos muestran que se intenta que la gente no nazca en festividades
como navidad y año nuevo, y que hay mayor proporción de concepciones en los
meses más frı́os.
30
Ejemplo 5.13 (Celdas vacı́as). Si queremos saber la probabilidad de “Vm :
exactamente m celdas quedan vacı́as” en el modelo de Maxwell-Boltzmann lo
calculamos (ver [3] sección IV.2 fórmulas 2.4 y 2.11):
n−m r
n X n−m m+v
PM B (Vm ) = (−1)v 1−
m v=0 v n
λm
P(Vm ) = e−λ
m!
Ejercicios
PyE A: pueden hacer ejercicios: 1.15.
PyE B: también pueden hacer ejercicios: 1.16.
31
6. Variables aleatorias (unidimensionales)
6.1. Definición de V.A., distribución
Definición 6.1 (Variable aleatoria). Sea (Ω, A, P) un espacio de probabilidad.
Una variable aleatoria (V.A.) sobre Ω es una función X : Ω → R tal que para
todo x ∈ R se cumple:
{ω ∈ Ω : X(ω) ≤ x} ∈ A
i.e. todo evento de la forma {X ≤ x} tiene su correspondiente preimagen en la σ-
álgebra, y entonces tiene asignada una probabilidad dada por P. Esta propiedad
se suele llamar ”X es A-medible”(ver Grimmet, [5] 2.1)
Definición 6.2 (Distribución de una variable aleatoria). Sea X : Ω → Rd
una variable aleatoria en un espacio de probabilidad (Ω, A, P). Llamaremos
distribución e X a la medida µ : β(Rd ) → [0, 1] tal que:
µ(S) := P(X ∈ S) ∀S ∈ Rd
FX (x) := P(X ≤ x)
32
Teorema 6.7 (Cálculo de probabilidades con FX ). Sea FX (x) la función de
distribución de la V.A. X, y sean a, b ∈ R números tales que a ≤ b. Se cumple:
1. P(a < X ≤ b) = FX (b) − FX (a)
2. P(X = a) = FX (a) − FX (a− )
3. P(a ≤ X ≤ b) = FX (b) − FX (a) + P(X = a)
4. P(a < X < b) = FX (b) − P(X = b) − FX (a)
5. P(a ≤ X < b) = FX (b) − P(X = b) − FX (a) + P(X = a)
6. P(X > a) = 1 − FX (a) = SX (a)
7. P(X < a) = FX (a− )
Nota 6.8 (Sobre el cálculo de probabilidades). Del teorema anterior, es funda-
mental entender y saber los primeros dos incisos. El resto son solo vueltas sobre
lo mismo.
Ejercicios
Hacer ejercicio 2.2.
33
La función de probabilidad puntual pX (x) tiene las siguientes propiedades
esenciales:
6.3.2. Continuas
Definición 6.14 (V.A. Continua). Diremos que X es una variable aleatoria
continua si y solo si FX (x) es continua en todo R
Definición 6.15 (V.A. Mixta). Diremos que X es una variable aleatoria mixta
si y solo si no es ni discreta ni continua.
Definición 6.16 (V.A. Absolutamente Continua). Diremos que X es una va-
riable aleatoria absolutamente continua si y solo si existe fX : R → [0, +∞)
medible (integrable) tal que para todo a, b ∈ R, tales que −∞ ≤ a < b < +∞,
vale que:
Z b
P(a < X ≤ b) = fX (x)dx
a
34
Definición 6.20 (Rango). —INFORMAL— Llamaremos rango Rg(X) a los
posibles valores que puede tomar la variable X. Para variables discretas, el rango
es el soporte de la función de probabilidad, y para continuas es el soporte de la
función de densidad, i.e.
Rg(X) = {x : pX (x) > 0} (d)
Rg(X) = {x : fX (x) > 0} (c)
dFX (x)
Rg(X) = {x : P(X = x) > 0 ∨ dx > 0} (mixta)
1. Sea FX (x) : R → [0, 1] una función con las propiedades esenciales de una
función de distribución (ver 6.5), entonces existe una V.A. X en un tal
que FX es su función de distribución
2. Sea pX (x) : A → [0, 1] (con A ⊂ R discreto o numerable) una función con
las propiedades esenciales de una función de probabilidad puntual (ver
6.12), entonces existe una V.A. discreta X en un tal que pX es su función
de probabilidad puntual
3. Sea fX (x) : R → [0, +∞) una función con las propiedades esenciales de
una función de densidad (ver 6.18), entonces existe una V.A. continua X
en un tal que fX es su función de densidad
Ejemplo 6.24 (Ejemplos). Dar V.A. Pascal (discreta) y V.A. Uniforme, Gam-
ma, Weibull, Normal (continuas). Sse usan al principio de guı́a 2, los alumnos
deben buscarlas en la tabla de distribuciones.
35
6.4. Intensidad de fallas, Cuantiles
Definición 6.25 (Función intensidad de fallas). Diremos que la V.A. absolu-
tamente continua T tiene función de intensidad de fallas λ(t) si y solo si:
Z t
FT (t) = 1 − exp − λ(s)ds 1{t > 0}
0
Definición 6.27 (a-cuantil). Sea a ∈ (0, 1), X una V.A., definimos un a-cuantil
de X a cualquier número real xa ∈ R tal que:
1. FX (xa ) − P(X = xa ) ≤ a
2. a ≤ FX (xa )
36
Definición 6.31 (Mediana, cuartiles...). Se llama mediana de X al 0.5-cuantil
de X.
Se llaman primer, segundo y tercer cuartil a los 0.25-cuantil, 0.50-cuantil y
0.75-cuantil.
Se llaman quintiles los 0.20-cuantil, 0.40-cuantil, · · · 0.80-cuantil.
Se llaman deciles a los 0.10-cuantil, 0.20-cuantil, · · · 0.90-cuantil.
Ejercicios
Pueden hacer 2.3 a 2.8; tener a mano la tabla de distribuciones, les va a
servir en 2.4 y 2.8.
Opcionales 2.9, 2.10. Opcional si leyeron función intensidad de fallas 2.17.
P(X ∈ (S ∩ B))
P ((X|X ∈ B) ∈ S) = P(X ∈ S|X ∈ B) =
P(X ∈ B)
para todo S ⊂ R medible.
Teorema 6.33 (Cálculo de densidad o probabilidad). Sea X una V.A. discreta
(d) o absolutamente continua (c), y sea B un medible tal que P(X ∈ B) > 0,
vale que:
(d)
pX (x) · 1 {x ∈ B} pX (x) · 1 {x ∈ B}
pX|X∈B (x) = = P
P(X ∈ B) t∈B pX (t)
(c)
fX (x) · 1 {x ∈ B} fX (x) · 1 {x ∈ B}
fX|X∈B (x) = = R
P(X ∈ B) f (t)dt
B X
Teorema 6.34 (F.P.T. para truncadas). Sea X una V.A. discreta (d) o absolu-
tamente continua (c); {Bi ⊂ R, i ≥ 1} medibles disjuntos tal que P(X ∈ Bi ) > 0
y P(X ∈ ∪i≥1 Bi ) = 1 vale que:
(d) X
pX (x) = pX|X∈Bi (x)P(X ∈ Bi )
i≥1
37
(c) X
fX (x) = fX|X∈Bi (x)P(X ∈ Bi )
i≥1
Ejercicios
Pueden hacer 2.18 a 2.20.
38
7. Simulación
7.1. Definiciones y teoremas
Definición 7.1 (Inversa generalizada). Sea F una función de distribución, de-
finimos su inversa generalizada:
F −1 (u) := mı́n{x ∈ R : u ≤ F (x)} u ∈ (0, 1)
Nota 7.2 (Interpretación). Graficar.
1. Si u tiene una sola preimagen, F −1 (u) es la inversa usual.
2. Si u tiene infinitas preimágenes, F −1 (u) es la menor de ellas.
3. Si u no tiene preimagen, F −1 (u) es el valor de x donde está el salto (dis-
continuidad) que corresponde a u.
Teorema 7.3 (Simulación). Sea U una variable aleatoria con distribución U ∼
U(0, 1) (uniforme o número random), FX una función de distribución, entonces
X := F −1 (U ) es una variable aleatoria con distribución dada por FX .
−1
Demostración. Notar que son equivalentes: FX (u) ≤ x ⇔ u ≤ FX (x) (no es
−1
tan sencillo como parece, recordar que FX es la inversa generalizada).
Luego
−1
P(X ≤ x) = P(FX (U ) ≤ x) = P(U ≤ FX (x)) = FU (FX (x)) = F (x)
Nota 7.4 (Sobre simulación). La importancia de este teorema está en que los
lenguajes de programación permiten generar números seudo-aleatorios a los que
en general se puede aceptar como números random. A partir de ellos, implemen-
tando un algoritmo que calcule inversas generalizadas podemos obtener valores
simulados de la variable aleatoria que queramos estudiar.
Teorema 7.5 (Transformada F). Sea X una VA absolutamente continua con
Fda FX , se define U := FX (X), entonces U es una VA uniforme U ∼ U(0, 1).
Teorema 7.6 (Algoritmo para transformar VA). Sea X una VA absoluta-
mente continua con función de distribución FX , y sea FY una función que
cumple las propiedades esenciales de una función de distribución. Se define
Y := FY−1 (FX (X)), entonces Y es una VA cuya Fda es FY .
39
[Link]
[Link]
[Link]
[Link]
[Link]
Algoritmo 7.7 (Generador casero). Una forma casera sencilla de generar núme-
ros pseudo-aleatorios es la siguiente. Se necesitan tres enteros a, b y m. Se arran-
ca en un número entero (llamado semilla) 0 ≤ X0 < m, y a partir de allı́ se
obtienen los siguientes números enteros Xi como función del paso anterior. Si
dividimos Xi /m obtendremos un número Ui ∈ [0, 1).
Xi+1 = (a · Xi + b) mód m Ui+1 = Xi+1 /m
se repite tantas veces como sea necesario. El valor Xi puede ir pisando al anterior
para no consumir memoria. La calidad de los números generados depende de
los enteros elegidos, sugerencia: a = 16807 b = 0 m = 231 − 1
Tanto este generador sencillo como los mejores generadores tienen como
problema la periodicidad, después de una cantidad de simulaciones (grande) los
números comienzan a repetirse en exactamente la misma secuencia.
Tener control sobre los randoms (usar siempre la misma secuencia) puede
ser conveniente a la hora de revisar, depurar y optimizar código, ası́ en dife-
rentes corridas si uno no altera la parte estrictamente de simulación obtendrá
exactamente los mismos resultados.
40
Ejemplo 7.9 (Dado cargado). El siguiente algoritmo sirve para simular cual-
quier variable discreta sobre un espacio finito (y con ciertas limitaciones se puede
adaptar a un numerable). Como ejemplo simularemos el problema visto en el
3.22, basta que el usuario modifique los datos Omega y pp para simular otro
problema.
El algoritmo arma el vector con los lı́mites Lk , luego simula y acumula
los resultados en un vector de frecuencias absolutas. Por último, divide por
la cantidad de simulaciones para obtener la frecuencia relativa, y muestra por
pantalla la diferencia entre la probabilidad y la frecuencia relativa.
Se desarrolló en lenguaje Python, usando listas a modo de vectores. No se
usan paquetes para cálculo numérico, ni búsquedas binarias, ni sintaxis espe-
ciales del lenguaje; se espera que el alumno pueda “traducirlo” fácilmente a
cualquier lenguaje que maneje.
Algoritmo 7.10 (Simulación variables discretas). Versión básica
1 #!/usr/bin/env python
2 # -*- coding: utf-8 -*-
3 """
4 Simulacion de variables aleatorias discretas
5 Version sencilla: sin busqueda binaria, sin modulos numericos
6 """
7 #Imports
8 from __future__ import division
9 import random
10
11 #Numero de simulaciones
12 n_sim = int(1e6)
13
18 #Cardinal de Omega
19 n_Omega = len(Omega)
20
21 #Inicializacion de listas
22 lims = [0] * (n_Omega+1)
23 frec = [0] * n_Omega
24 frel = [0] * n_Omega
25 delta = [0] * n_Omega
26 delta_r = [0] * n_Omega
27 uu = [0] * n_sim
28
41
39 for i in range(n_sim):
40 for j in range(n_Omega):
41 if lims[j] <= uu[i] and uu[i]<lims[j+1]:
42 frec[j] += 1
43
Omega: [1, 2, 3, 4, 5, 6]
Frec.: [48052, 94916, 143122, 190068, 238114, 285728]
Frel.: [0.048052, 0.094916, 0.143122, 0.190068, 0.238114, 0.285728]
|p-f|: [0.000433, 0.000322, 0.000265, 0.000408, 1.9e-05, 1.4e-05]
Notar que con 106 simulaciones obtenemos unas 3 cifras correctas para todas
las probabilidades simuladas.
En el ejemplo vimos simplemente cómo hacer una simulación, y que para n
grande la frecuencia relativa se acercó a la probabilidad, pero no aprendimos
nada nuevo sobre el experimento. Lo más potente del método de simulación es
modelar sistemas complejos y calcular probabilidades que desconocemos.
Algoritmo 7.11 (Espacios equiprobables). Sea X una V.A. discreta que toma
valores en {1 . . . n} de manera equiprobable (ejemplo tı́pico es extracciones con
reposición de un bolillero con n bolillas). Sea U un número random, simulamos:
X := ⌊U · n⌋ + 1
42
Ejercicios
PyE B: pueden hacer ejercicio 2.12 a 2.16.
43
8. Funciones para análisis de datos
Definición 8.1 (Función de distribución empı́rica). Sea x = (x1 , x2 . . . xn ) un
vector en Rn . Se define la función de distribución empı́rica asociada al vector x:
n
1X
F dex (t) := 1 {xi ≤ t}
n i=1
44
Ejemplo 8.8 (Análisis de datos). Se ensaya la duración en años de determinado
componente electrónico, obteniéndose los siguientes resultados:
0.688, 0.801, 0.942, 0.383, 0.825, 0.383, 0.150, 0.091
a Hallar y graficar la función de distribución empı́rica. Estimar a partir de ella
la probabilidad de que un componente dure más de 0.7 años.
b Usando valores lı́mite 0.0, 0.5, 0.8, 1.0, hallar y graficar la función histograma.
Estimar a partir de ella la probabilidad de que un componente dure más de
0.7 años.
Resolución: (a) Lo primero que se recomienda hacer es ordenar el vector de
datos de menor a mayor. Tenemos
x(ord.) = (0.091, 0.150, 0.383, 0.383, 0.688, 0.801, 0.825, 0.942)
Luego armamos la función de distribución empı́rica aplicando la fórmula. Se
puede escribir con llaves o como suma de indicadoras:
1 2
F dex (t) = 1 {0.091 ≤ t < 0.150} + 1 {0.150 ≤ t < 0.383} + · · ·
8 8
4 5
· · · + 1 {0.383 ≤ t < 0.688} + 1 {0.688 ≤ t < 0.801} + . . .
8 8
6 7
· · · + 1 {0.801 ≤ t < 0.825} + 1 {0.825 ≤ t < 0.942} + 1 {0.942 ≤ t}
8 8
Notar que es una escalera que cada vez que aparece una muestra pega un
salto de altura 1/n (si hay valores muestrales que aparecen dos veces pega saltos
dobles).
Para estimar la probabilidad pedida:
3
P(X > 0.7) = 1 − FX (0.7) ≃ 1 − F dex (0.7) = = 0.375
8
Resolución: (b) Ahora debemos contar cuántos valores fj nos caen en cada
intervalo Ij de longitud Lj . También es más fácil hacer el conteo si tenemos el
vector de las xi ordenado.
I1 = [0.0, 0.5), f1 = 4, L1 = 0.5
I2 = [0.5, 0.8), f2 = 1, L2 = 0.3
I3 = [0.8, 1.0), f3 = 3, L3 = 0.2
Con esos datos construimos la función histograma:
4 1 3
histx,a (t) = 1 {0.0 ≤ t < 0.5}+ 1 {0.5 ≤ t < 0.8}+ 1 {0.8 ≤ t < 1.0}
8 · 0.5 8 · 0.3 8 · 0.2
histx,a (t) = 1.0·1 {0.0 ≤ t < 0.5}+0.41667·1 {0.5 ≤ t < 0.8}+1.875·1 {0.8 ≤ t < 1.0}
Para estimar la probabilidad pedida:
Z ∞ Z 1.0
1 3
P(X > 0.7) = fX (t)dt ≃ histx,a (t)dt = 0.1 · + 0.2 · ≃ 0.4167
0.7 0.7 2.4 1.6
Notar que las aproximaciones usando la F de y la función hist no tienen
por qué coincidir. Se supone que para una muestra grande deberı́an dar valores
parecidos.
45
46
Ejercicios
PyE B: pueden hacer ejercicio 2.11.
47
9. Variables aleatorias n-dimensionales
Todo lo dado en este capı́tulo es un resumen de [1], Vectores aleatorios. Ahı́
hay más ejemplos y gráficos.
48
9.2. Marginales
Las coordenadas Xi de un vector aleatorio X son variables aleatorias 1-
dimensionales, y como tales tendrán su propia distribución. A esas variables
aleatorias, para indicar o destacar que se trata de una coordenada de una varia-
ble n-dimensinal, las llamaremos habitualmente variables aleatorias marginales.
Teorema 9.6 (Marginales, función de distribución). Sea X una V.A. n-dimensional
con función de distribución FX (x), vale que:
(d) X
pXi (t) = pX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )
x{1...n}\{i}
(c) Z
fXi (t) = fX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )dx{1...n}\{i}
Rn−1
Ejemplo 9.8 (Caso bidimensional). Sea (X, Y ) una V.A. 2-dimensional dis-
creta (d) o continua (c) con función de probabilidad p(X,Y ) (x, y) o función de
densidad f(X,Y ) (x, y), vale que:
(d) X
pX (s) = p(X,Y ) (s, y)
y
X
pY (t) = p(X,Y ) (x, t)
x
(c) Z
fX (s) = f(X,Y ) (s, y)dy
R
Z
fY (t) = f(X,Y ) (x, t)dx
R
49
9.3. Independencia
Definición 9.9 (Independencia de una cantidad finita de V.A.). Dada una
familia de V.A. (Xi : i ∈ I) con |I| = n < ∞ (I es una colección de ı́ndices finita,
tı́picamente 1 . . . n) definidas sobre un mismo espacio de probabilidad (Ω, A, P ).
Diremos que sus V.A. son conjuntamente independientes sii se verifica para todo
x ∈ Rn : !
\ Y
FX (x) = P {Xi ≤ xi } = FXi (xi )
i∈I i∈I
50
P(X = 1, Y ≤ y) = pFY (y)
P(X = 0, Y ≤ y) = (1 − p)FY (y)
Ejercicios
Pueden hacer ejercicios 2.21 a 2.26. El 2.24 es optativo para PyE A, intentar
reconocer la función de densidad.
51
10. Momentos
En este capı́tulo simplemente se reordenan las definiciones y se resume
Grynberg[1], Variables Aleatorias: Momentos. Remitirse a la fuente para muchos
ejemplos y demostraciones de los teoremas.
10.1. Esperanza
Definición 10.1 (Esperanza). Sea X una V.A. unidimensional con distribución
µ, definimos: Z
E[X] := t · µ(dt)
R
52
Teorema 10.6 (Propiedades). Vale que (para X o Xi con esperanza finita):
(1) Constantes: E[a] = a ∀a ∈ R
P P
(2) Linealidad: E[ ai Xi ] = ai E[Xi ]. En particular, para la combinación
lineal de dos variables E[aX + bY ] = aE[X] + bE[Y ]
Q Q
(3) Producto independiente: Si Xi son independientes, E[ Xi ] = E[Xi ]
Ejercicios
PyE A: Pueden hacer ejercicios 3.1 a 3.3, 3.5 a 3.7, optativos 3.8 y 3.9, 3.10,
3.12 y 3.13.
PyE B: Pueden hacer ejercicios 3.1 a 3.13
10.2. Varianza
Definición 10.8 (Varianza). Sea X una V.A. con esperanza finita, definimos
la varianza de X como
var(X) := E (X − E[X])2
llamaremos desvı́o de X a p
σX := var(X)
Nota 10.9 (Sobre el desvı́o). Para aplicaciones fı́sicas o ingenieriles donde X
representa una magnitud fı́sica con su unidad de medida, σX es más fácil de
visualizar porque tiene las mismas unidades que la variable X y su esperanza
E[X], en cambio var(X) está con la unidad al cuadrado. En matemática es más
habitual trabajar con la varianza.
Teorema 10.10 (Fórmula para calcular V). Sea X una V.A. con esperanza y
varianza finita:
var(X) = E[X 2 ] − E2 [X]
Demostración. Basta con desarrollar el cuadrado del binomio y aplicar propie-
dades de lienalidad vistas
var(X) = E[(X − E[X])2 ] = E[X 2 + (E[X])2 − 2XE[X]] = · · ·
· · · = E[X 2 ] + (E[X])2 − 2E[X]E[X] = E[X 2 ] − (E[X])2
53
Teorema 10.11 (Propiedades de var). Vale que:
(1) Trato con constantes: var(aX + b) = a2 var(X) para todo a, b ∈ R
(2) Error cuadrático medio: ecm(X, c) := E[(X − c)2 ] = var(X) + (E[X] − c)2
para todo c ∈ R. En particular, tomando c = E[X] se minimiza el ecm.
Ejemplo 10.12 (Ejemplos de varianza). Dar los mismos ejemplos que para
esperanza.
Ejercicios
PyE A y B pueden hacer ejercicios 3.14 a 3.16.
covi,j := cov(Xi , Xj )
Si las esperanzas E[Xi2 ] son finitas, se pueden calcular las coordenadas con
la fórmula habitual covi,j = E[Xi Xj ] − E[Xi ]E[Xj ].
Para la matriz de covarianzas es muy habitual al notación de sigma mayúscu-
la Σ
Ejemplo 10.16 (Bernoulli conjunta). Dar en clase V.A. bernoulli 2-D con
probabilidades puntuales a, b, c, d.
Definición 10.17 (Coeficiente de correlación). Sea (X, Y ) un vector aleatorio
con covarianza, definimos su coeficiente de correlación:
cov(X, Y ) cov(X, Y )
ρX,Y := p =
var(X) · var(Y ) σX · σY
54
Teorema 10.18 (Propiedades de cov y ρ). Sean X, Y, Z, Xi , Yi V.A. con espe-
ranza del cuadrado finita; a, b ∈ R se cumple:
55
Figura 1: Normales bivariadas con distinto ρ
Ejercicios
PyE A y B pueden hacer ejercicios 3.17, 3.18, 3.20. PyE B: también puede pensar
el 3.19 (no aporta mucho).
cov(X, Y )
ŷ(x) := (x − E[X]) + E[Y ]
var(X)
56
o, lo que es equivalente y más fácil de recordar:
x − E[X] ŷ − E[Y ]
y ∗ := ρx∗ x∗ = , y∗ =
σX σY
Notar que en la fórmula aparecen la función ŷ, la variable x, y algunos
momentos de las V.A., se trata de la expresión de una recta sin nada aleatorio.
E[X]
P(X ≥ a) ≤
a
Demostración. Hacer el gráfico, recordar cómo calcular esperanza a partir de
FX .
E[X 2 ]
P(|X| ≥ a) ≤
a2
Demostración. Inmediata a partir del teorerma anterior. Ver Billingsley [7] sec-
ción 1.5 fórmula 5.31
57
Demostración. Por linearidad de esperanza y por tener todas las V.A. la misma
esperanza:
P
Sn E [ Xi ] 1X 1
E = = E[Xi ] = nE[X1 ] = E[X1 ]
n n n n
Como además las variables son independientes se anulan las cov y se tiene:
Sn 1 X 1 var[X1 ]
var = 2 var(Xi ) = 2 nvar[X1 ] =
n n n n
Ejercicios
PyE B pueden hacer ejercicios 3.21 a 3.26
58
11. Transformaciones de V.A.
Si X es una V.A. y g una función, en muchas aplicaciones nos intersará saber
cómo se comporta Y = g(X). Trateremos en este capı́tulo de dar teoremas útiles
(métodos) para hallar la distribución de Y a partir de la distribución de X, tanto
en casos 1-dimensionales como n-dimensionales.
{ω ∈ Ω : Y = g(X(ω)) ≤ y} ∈ A ∀y ∈ Rn
g −1 (S) := {x ∈ D : g(x) ∈ S}
P (Y ∈ S) = P(X ∈ g −1 (S))
Demostración. Inmediata, pues el evento Y ∈ S refiere a los mismos ω ∈ Ω que
el evento X ∈ g −1 (S) y por lo tanto tiene asignada la misma probabilidad.
Teorema 11.5 (Caso particular - FY (y)). Tomemos como caso particular S† =
{t : t ≤ y}, tendremos P(Y ∈ S† ) = P(Y ≤ y) = FY (y) lo que nos permite
calcular la función de distribución de Y aplicando el teorema:
O, equivalente X
pY (y) = pX (x) x=gi−1 (y)
i
59
donde (con cierto abuso de notación) la sumatoria recorre las preimágenes
que corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas
preimágenes x como funciones gi−1 (y).
Demostración. Tomamos S = {y} (un conjunto con un único punto), tendremos
P(Y ∈ S) = P(Y = y) = P(X ∈ g −1 ({y}) lo que nos permite calcular la función
de probabilidades de Y aplicando el teorema.
Teorema 11.7 (Caso particular lı́mite - Continuas fY (y)). Sea X variable alea-
toria continua, Y = g(X) con g inversible por regiones en Rg(X), g : Rg(X) ⊂
Rm → Rm (el espacio destino tiene la misma dimensión que el de origen) vale
que:
X fX (x)
fY (y) =
|Jg (x)|
x:g(x)=y
o equivalente:
X fX (x)
fY (y) =
i
|Jg (x)| x=gi−1 (y)
donde (con cierto abuso de notación) la sumatoria recorre las preimágenes que
corresponde, y x = gi−1 (y) nos dice que se deben escribir esas distintas preimáge-
nes x como funciones gi−1 (y). Usando el Jacobiano de la transformación inversa
podemos escribir:
X
fY (y) = fX (x) x=g−1 (y) |Jg−1 (y)|
i i
i
∂(gi−1 )m (y)
∂gm (x)
Jg = Jg−1 =
m,n ∂xn i
m,n ∂yn
∆y
P Y ∈y± = fY (y) · ∆y
2
∆y
Tomando como región S = y ± 2 tendremos, por eventos equivalentes:
∆y ∆y
X X ∆xi
P Y ∈y± = P X∈ gi−1 y± = P X ∈ xi ±
2 i
2 i
2
60
Teorema 11.8 (Box-Muller). Sean U1 , U2 variables aleatorias independien-
tes idénticamente distribuidas con distribución U[0, 1). Definimos las siguientes
transformaciones: p
R = −2 log(U1 ) Θ = 2πU2
(Z1 , Z2 ) = (R cos Θ, R sin Θ)
Vale que:
R2 ∼ E(1/2) = Γ(1, 1/2) = χ22
R ∼ Ray(1)
Θ ∼ U[0, 1)
(R, Θ) independientes
Z1 , Z2 V.A.I.I.D. con distribución N (0, 1)
Demostración. Vayamos paso a paso:
61
volviendo...
1 2
!
re− 2 r
f(Z1 ,Z2 ) (z1 , z2 ) = 1{r > 0, 0 < t < 2π}
r2π
g −1 (z1 ,z2 )
62
y por complemento
λ2
P(J = 2) =
λ1 + λ2
Por teorema de factorización, al factor de la derecha en la expresión de
P(J = 1 ∩ U > u) no le queda otra que ser P(U > u), i.e.:
(U, V ) = g(X1 , X2 )
Notar que los puntos del primer cuadrante sobre el cual está definida g los
manda a parar al segundo octante, es decir el ángulo donde v > u > 0, y que
cada punto de la imagen tiene 2 preimágenes: (x1 , x2 ) = g1−1 (u, v) = (u, v) y
(x1 , x2 ) = g2−1 (u, v) = (v, u). Usando la regla del Jacobiano:
fU,V (u, v) = fX,Y (u, v)|Jg−1 | + fX,Y (v, u)|Jg−1 | 1 {0 < u < v}
1 2
(U ∗ , W ) = h(U, V )
63
multiplicamos y dividimos por (λ1 + λ2 ) y acomodando un poco:
Ejercicios
PyE A: pueden hacer ejercicios 4.1 a 4.7; 4.18 a 4.20.
PyE B: pueden hacer completa guı́a 4.
64
12. Condicionales
En este capı́tulo se reordenan los conceptos de Grynberg [1] Condicionales.
Se intenta minimizar la cantidad de definiciones para aprovechar los teoremas
ya dados en los capı́tulos anteriores. Para ejemplos y demostraciones leer el
borrador mencionado. Se dan todas las definiciones para V.A. en 2 dimensiones,
se podrı́a generalizar sin problema a n-dimensional, teniendo en cuenta que al
condicionar a Xi = xi se reduce la dimensión en 1.
pX,Y (x, y)
pY |X=x (y) = (d)
pX (x)
fX,Y (x, y)
fY |X=x (y) = (c)
fX (x)
Alternativamente, si y ∈ Rg(Y ) podemos definir la variable aleatoria X|Y =
y a partir de su función de probabilidad o densidad:
pX,Y (x, y)
pX|Y =y (x) = (d)
pY (y)
fX,Y (x, y)
fX|Y =y (x) = (c)
fY (y)
Ejercicio 12.2 (Sobre Y |X = x). Demostrar que la definición anterior existe
Ejemplo 12.3 (Ejemplo condicionales). Hacer ejemplo con urna 3 verdes, 2 ro-
jas, 2 azules; extraer 2 sin reposición. Hacer ejemplo uniforme sobre un triángulo
o sobre una región como la del parcial.
Teorema 12.4 (Factorización - Espada del Augurio). Sea (X, Y ) discreta (d)
o continua (c), en todos los puntos del rango la siguiente factorización existe y
es única:
pX,Y (x, y) = pY |X=x (y)pX (x)
fX,Y (x, y) = fY |X=x (y)fX (x)
(también vale factorizar con la condicional de X|Y = y y la marginal de Y )
Demostración. Pasar multiplicando y completar los huecos
Teorema 12.5 (Fórmula de probabilidad total ampliada). Sea Y |X = x dis-
creta (d) o continua (c), dada la marginal de X podemos reconstruir la marginal
de Y : X
pY (y) = pY |X=x (y)pX (x)
x∈Rg(X)
Z
fY (y) = fY |X=x (y)fX (x)dx
Rg(X)
65
Demostración. En la definición de densidad marginal reemplazar la conjunta
por el producto de condicional y marginal, restringir la operación al soporte
para evitar problemas técnicos
Notar que la versión discreta es la fórmula de probabilidades totales de siem-
pre, pero ahora ampliamos el teorema al caso continuo.
Ejercicios
PyE A: Pueden hacer ejercicios 5.1 a 5.3, 5.4 optativo (ver normal bivariada en
tabla de distribuciones), 5.5. PyE B: Pueden hacer ejercicios 5.1 a 5.6.
Demostración.
X
FX (x) = P(XM ≤ x) = P (XM ≤ x|M = m)P (M = m) = . . .
m∈M
X X
... = P(Xm ≤ x|M = m)P(M = m) = FXm (x)P(M = m)
m∈M m∈M
Si las Xi son mixtas o son algunas discretas y algunas continuas este teorema
no sirve, en tal caso usar la función de distribución.
66
Ejemplo 12.10 (Ejemplo de mezcla). Resolver mezcla de dos uniformes. Mos-
trar gráfico de funciones de densidad originales y mezcla. Dejar servido para
hacer un bayes.
Ejercicios
PyE A: Pueden hacer ejercicios 5.7 y 5.9.
PyE B: Pueden hacer ejercicios 5.7 a 5.9.
var(Y |X = x) = E[Y 2 |X = x] − E2 [Y |X = x]
67
Teorema 12.15 (Momentos de mezcla). Sea X = XM V.A. mezcla como la
definimos en el capı́tulo, se demuestra fácilmente con un tema que veremos a
continuación: X
E[X] = E[Xm ]pM (m)
m∈M
X X
var(X) = var(Xm )pM (m) + (E[Xm ] − E[X])2 pM (m)
m∈M m∈M
ψ(x) := var(Y |X = x)
Ejercicios
PyE A: Pueden hacer ejercicios 5.10 inciso a, 5.17 inciso a, y optativo 5.13 (ver
ejemplo a continuación).
PyE B: Pueden hacer ejercicios 5.10, 5.11, 5.13 (ver ejemplo a continuación),
5.14, 5.17.a.
Ejemplo 12.19 (Rata sin memoria en laberinto). Una rata está atrapada en
un laberinto. Inicialmente puede elegir una de tres sendas. Si elige la primera se
perderá en el laberinto y luego de t1 = 12 minutos volverá a su posición inicial;
si elige la segunda volverá a su posición inicial luego de t2 = 14 minutos; si elige
la tercera saldrá del laberinto luego de t3 = 9 minutos. En cada intento, la rata
elige con igual probabilidad cualquiera de las tres sendas. Calcular la esperanza
del tiempo que demora en salir del laberinto.
Resolución Sea T el tiempo total que tarda la rata en escapar, y Xi la
puerta que elige la rata en el intento i de escape. La técnica para resolver este
ejercicio será pensar cómo se distribuye el tiempo T si lo condicionamos al
resultado de la primera elección de la rata X1 .
Este tipo de análisis será útil en problemas que presentan la caracterı́stica
de regeneración, informalmente quiere decir que si pasan determinadas cosas el
problema vuelve a su estado inicial (o vuelve a algún estado). En este caso, cada
vez que se elija la puerta 1 o 2 la rata vuelve a un estado inicial, por viendo a
futuro lo que le falta para escapar no depende de cuánto tiempo lleva perdida,
da lo mismo si recién inicia o si ya hizo 500 malas elecciones.
68
Volviendo, si elige la puerta número 1, la rata consume t1 y vuelve al labe-
rinto, donde lo que le falta para escapar se distribuye igual que si empezara el
problema de cero. Si elige la puerta número 2 consume t2 y nuevamente lo que
le falta para escapar se distribuye igual que si empezara el problema de cero.
Y si elige la puerta 3 tarda t3 y se escapa. Podemos escribir eso formalmente
como:
(T |X1 = 1) ∼ t1 + T
(T |X1 = 2) ∼ t2 + T
(T |X1 = 3) = t3
(si le hace ruido ver T a ambos lados de la relación, recuerde que el sı́mbolo ∼
no significa igual, sino que lo que está a la izquierda tiene la misma distribución
que lo que está a la derecha)
Podemos resolver el ejercicio aplicando FPT para esperanzas:
E[T ] = E[T |X1 = 1]pX1 (1) + E[T |X1 = 2]pX1 (2) + E[T |X1 = 3]pX1 (3)
reemplazando:
E[T ] = E[T + t1 ]pX1 (1) + E[T + t2 ]pX1 (2) + E[t3 ]pX1 (3)
termina:
E[T ] = t1 + t2 + t3 = 12 + 14 + 9 = 35
69
13. Esperanza condicional
13.1. Presentación
Este es probablemente el tema más difı́cil conceptualmente que veremos
en el curso (don’t panic: las cuentas son muy fáciles). Intentaremos dar una
descripción lo más clara posible, para entenderlo bien se deben leer libros que
escapan el alcance del curso (y el conocimiento del que escribe) como [7].
Comencemos describiendo el problema. Tenemos (X, Y ) una variable aleato-
ria 2-dimensional sobre un espacio de probabilidad (Ω, A, P). En una realización
del experimento se puede observar o medir X, y a partir de ello quiero poder
(en algún sentido) aproximar la variable Y desconocida (pero realizada) con una
función de X a la que llamaremos φ(X).
Dar algún ejemplo como caldera donde mido temperatura y quiero inferir
sobre la presión. Hacer esquema conceptual.
Definición 13.1 (V.A. esperanza condicional). Sea (X, Y ) una variable aleato-
ria 2-dimensional con E[|Y |] < ∞. Llamaremos esperanza condicional de Y dada
X, a la que escribiremos E[Y |X], a cualquier variable aleatoria φ(X) (transfor-
mada de X con φ : R → R medible) tal que cumpla la siguiente ecuación
funcional:
70
Teorema 13.5 (Cálculo de la V.A. esperanza condicional). —Si el cuatrimes-
tre viene apurado, se usa este teorema como definición, siguiendo a Grimmet-
Stirzaker [5]— Se cumplen las hipótesis para definirla, la función de regresión
φ(x) = E[Y |X = x] resuelve la ecuación funcional, vale entonces:
Definición 13.7 (V.A. varianza condicional). Con las mismas hipótesis que
definimos E[Y |X] y además E[Y 2 ] < ∞ definimos la varianza condicional de Y
dado X:
var(Y |X) := E[Y 2 |X] − (E[Y |X])2
Teorema 13.8 (Cálculo de la V.A. varianza condicional). Si está definida,
la varianza condicional se obtiene especificando la función *tridente ψ(x) =
V (Y |X = x) en la variable aleatoria X:
71
13.2. Iterpretación geométrica
Seguiremos la interpretación geométrica de [1] Condicionales, subtı́tulo Pre-
dicción, aunque cambiando algunos nombres de elementos y reordenando los
conceptos. La idea es definir ciertos elementos, mostrar que estamos en un es-
pacio vectorial, y a partir de lo que sabemos de álgebra ver que la esperanza
condicional es una proyección ortogonal.
Definición 13.11 (Definiciones varias). Sean (Ω, A, P ) un e.p., definimos:
Teorema 13.13 (Predictor). Sean X, Y V.A. sobre un e.p. tales que E[Y 2 ] <
∞, y sea φ(X) = E[Y |X] la esperanza condicional de Y dado X. Vale que φ(X)
es la proyección ortogonal de Y sobre el subespacio HX .
72
2. Ahora probemos a partir de la ecuación funcional que define la esperanza
condicional que se trata de la proyección.
Si φ(X) es la p.o. de Y sobre HX , el vector que va de una V.A. a la otra
debe ser perpendicular al subespacio, esto es Y − φ(X) ⊥ HX . Partamos
de la ecuación funcional
pasamos restando
E[(Y − φ(X))h(X)] = 0
⟨Y − φ(X), h(X)⟩ = 0 ∀h
abrimos el binomio
73
el tercer término se anula (de nuevo usar propiedades de esperanza condi-
cional)
Ejemplo 13.16 (Mezcla). Demostrar las fórmulas dadas para esperanza y va-
rianza de mezclas
Ejercicios
PyE B: Pueden completar la guı́a 5.
74
14. Proceso Bernoulli
14.1. Procesos y proceso Bernoulli
Definición 14.1 (Proceso aleatorio). Un proceso aleatorio o proceso estocástico
Π es una familia {Xt : t ∈ T } de variables aleatorias que toman valores en un
conjunto S.
Nota 14.2 (Sobre los procesos). Algunas consideraciones:
1. Se puede interpretar al proceso aleatorio como una colección infinita de
variables aleatorias Xt , donde le subı́ndice t recorrerá en general los natu-
rales o los reales positivos.
2. Las Xt pueden o no ser independientes.
3. Si los tiempos son numerables, por ejemplo T = N, o Z diremos que el
proceso es de tiempo discreto.
4. Si en cambio el tiempo es no numerable, tı́picamente T = [0, +∞) o R,
diremos que el proceso es de tiempo continuo.
75
Vale que Sk tendrá distribución Pascal Pas(k, p) (ver tabla de distribuciones).
El caso particular de tiempo de espera hasta el primer éxito S1 tiene distribución
Geométrica Geo(p) (ver tabla).
Nota 14.6 (Cuidado con los libros). No todos los autores definen Geométrica
y Pascal como lo hacemos en el curso. Los rusos en general las definen como
cantidad de fracasos (en lugar de experimentos) hasta el primer o k-ésimo éxito.
Y a la Pascal muchos autores la llaman binomial negativa.
Teorema 14.7 (Pérdida de memoria de la geométrica). Si T ∼ G(p) entonces
diremos que tiene la propiedad de pérdida de memoria, formalmente:
P(T > n + m|T > n) = P(T > m) ∀n, m ∈ N
Nota: también vale:
E[T |T > n] = n + E[T ] ∀n ∈ N
Demostración. Inmediata, usar la definición de probabilidad condicional.
Teorema 14.8 (La pérdida de memoria caracteriza a la geométrica). Si T es
una variable aleatoria discreta a valores en N con la propiedad de pérdida de
memoria, entonces T ∼ G(p), donde p = P(T = 1).
Teorema 14.9 (Tiempos entre éxitos sucesivos). Dado un proceso Bernoulli
donde definimos los tiempos de espera Sk con distribución Pascal Pas(k, p),
definamos Tk como la cantidad de experimentos entre el éxito k − 1 y el éxito k
(con T1 la cantidad de ensayos hasta el primer éxito), formalmente:
T1 = S1 Tk = Sk − Sk−1 k>1
Vale que {Ti , i ∈ N} son variables aleatorias independientes idénticamente dis-
tribuidas (V.A.I.I.D.) con distribución G(p).
Teorema 14.10 (Suma de G(p) independientes). Sean {Ti , i ∈ N} una familia
de variables aleatorias independientes con distribución G(p), entonces:
k
X
Sk = Ti
i=1
Teorema
Pn 14.12 (Aproximación Poisson a la binomial —Informal—). Sea Yn =
i=1 Xi , se indicó ya que es una variable aleatoria binomial. Si n es grande, p
pequeño, y µ := np constante al tomar lı́mite vale que:
(np)y e−np
P(Yn = y) ≈
y!
es decir, podemos aproximar a la distribución B(n, p) por una Poi(µ = np).
76
Demostración. En la fórmula de la binomial expresar el combinatorio por facto-
riales, reemplazar n! y (n−k)! por la fórmula de Stirling, tomar lı́mite resolviendo
las indeterminaciones 0∞ y listo.
Ejercicios
Pueden hacer ejercicios 6.1, 6.3, 6.4, 6.6, 6.7, 6.12.
77
o equivalente:
pXn (1) = p1 pXn (2) = p2 ... pXn (b) = pb
A este tipo de variables discretas se las suele llamar variables categóricas
(porque se interpreta que la variable en cada experimento nos dice a qué ca-
tegorı́a pertenece el resultado obtenido). El proceso Bernoulli generalizado (o
ensayos Bernoulli generalizados, o proceso categórico) se puede pensar como re-
petir en condiciones ideales un experimento en el cual hay r resultados posibles
(categorı́as). Es una generalización del proceso Bernoulli, se mantiene la inde-
pendencia y distribución idéntica entre los ensayos, pero se admiten r resultados
posibles en lugar de simplemente éxito o fracaso.
Teorema 14.14 (Distribución multinomial). Sea M n un vector que cuenta la
cantidad de ocurrencias de cada resultado en los primeros n ensayos, esto es:
n
X
(Mn )j := 1 {Xi = j} j = 1...b
i=1
Ejercicios
Pueden hacer ejercicios 6.14, 6.15, 6.17.
78
Demostración. Ver Flajolet, Gardy, Thimonier [10]. Los autores trabajan con
lenguajes regulares y funciones generadoras (escapan los objetivos del curso y
conocimiento del autor).
Ejemplo 14.17 (Aplicación de coleccionista). —Esto tampoco se da, simple-
mente baja a tierra el delirio anterior— Para entender la fórmula, resolvamos
para m = 1
E[Cm ] = 1
Para m = 2, por simplicidad p = (p1 , p2 ) = (a, b)
1 1
E[Cm ] = −1 + +
1−a 1−b
Para m = 3, por simplicidad p = (p1 , p2 , p3 ) = (a, b, c)
1 1 1 1 1 1
E[Cm ] = 1 − − − + + +
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
Para m genérico y pi = 1/m (resultados equiprobables):
m
X m 1
E[Cm ] = m (−1)q−1
q=1
q q
Tb ∼ G(pb )
m
pb pb pb
Nrb ∼ G −1 P(Nrb = m) = 1−
pb + pr pb + pr pb + pr
En particular,
pb
pr 1− pb +pr
E[Nrb ] = var(Nrb ) = 2
pb pb
pb +pr
Demostración. Ver Grynberg [1], Ensayos Bernoulli, ejemplo 1.16 para una de-
mostración rigurosa. También se puede demostrar notando que si al proceso
Bernoulli generalizado de las Xi original lo filtramos quitando todos los ex-
perimentos con resultado que no nos interesa {t : t ̸= r, t ̸= b}, nos quedará
un proceso con solamente dos resultados, r y b, y probabilidades respectivas
qr = pr /(pr + pb ) y qb = pb /(pr + pb ). El tiempo de espera hasta el primer resul-
tado r en el proceso filtrado es una geométrica G(qr ), y para contar la cantidad
de fracasos le restamos 1.
79
Nota 14.19 (Sobre róbins hasta Bátman). Podemos pensar el problema como
una variación del coleccionista. Unos chocolatines traen premios de superhéroes
yankis. No nos interesa juntar la colección completa, simplemente queremos
(como todos) conseguir un Bátman (el premio b), si nos sale un Súperman o
Mujer Maravilla (premios ̸= r) nos los quedamos, pero si nos sale un Róbin
(el premio r) lo tiramos al carajo. Compramos chocolatines hasta conseguir el
preciado Batman, ¿cuántos Robins tengo que tirar?
Ejemplo 14.20 (Coleccionista con tres premios y vacı́os). Resolveremos el
problema del coleccionista clásico, paso por paso, pero agregándole la posibili-
dad de que vengan chocolatines vacı́os. Sea {Xi : i ∈ N} un proceso Bernoulli
generalizado a valores (0, 1, 2, 3) con probabilidades respectivas (z, a, b, c). El
coleccionista quiere juntar los premios 1 a 3, y los 0 no le interesan, representan
el chocolatı́n vacı́o.
Llamaremos N al tiempo de espera a completar la colección, NZ al tiem-
po que falta hasta completar la colección dado que ya acumulé Z ⊂ {1, 2, 3}
(subconjunto de la colección completa).
Condicionemos para empezar N al primer resultado. Si sale vacı́o el problema
vuelve a empezar, si sale 1 a 3 el coleccionista avanza:
N |X1 = 0 ∼ 1 + N
N |X1 = 1 ∼ 1 + N1
N |X1 = 2 ∼ 1 + N2
N |X1 = 3 ∼ 1 + N3
Ahora nos encontramos que para conocer N , debemos estudiar cómo se com-
portan N1 , N2 y N3 . Sigamos avanzando, para analizar N1 de una forma similar,
condicionemos al resultado i que será el primero después de obtener el premio
1. De nuevo, si ya tenemos el 1 acumulado y nos sale vacı́o o de nuevo 1 el
coleccionista no avanza, si sale 2 o 3 sı́.
N1 |Xi = 0 ∼ 1 + N1
N1 |Xi = 1 ∼ 1 + N1
N1 |Xi = 2 ∼ 1 + N1,2
N1 |Xi = 3 ∼ 1 + N1,3
Y ahora para estudiar describir N1 nos aparecen N1,2 y N1,3 . Parece que
se complica cada vez más, pero debemos notar que las variables N1,2 y N1,3
representan el tiempo de espera hasta encontrar el único premio que falta (3 y
2 respectivamente). Para cada una de ellas, hay un solo éxito que consiste en
encontrar el premio que falta, luego el tiempo hasta el éxito se distribuye como
variable geométrica, respectivamente N1,2 ∼ G(c) y N1,3 ∼ G(b).
Entonces, por fórmula de probabilidades totales para esperanza:
80
1 b c
E[N1 ] = 1+ +
1−z−a c b
1 b c
E[N1 ] = 1+ +
b+c c b
Análogamente
1 c a
E[N2 ] = 1+ +
c+a a c
1 a b
E[N3 ] = 1+ +
a+b b a
Planteamos ahora E[N ] por fórmula de probabilidades totales
1 1 1 1 1 1
E[N ] = 1 − − − + + + si z = 0
1−a 1−b 1−c 1−a−b 1−b−c 1−c−a
14.4.2. Rachas
Teorema 14.21 (*Rachas - Tiempos de espera). —Esto no se da en clase ni
se pide en ningún ejercicio de la guı́a— Del Feller XIII.7 [3] Sea Tr el tiempo
de espera (cantidad de lanzamientos necesarios) hasta observar por primera vez
una racha de r éxitos consecutivos en un proceso Bernoulli p, con q = 1 − p,
vale que:
1 − pr 1 2r + 1 p
E[Tr ] = r
var(Tr ) = r 2
− r
− 2
qp (qp ) qp q
Sean fn la probabilidad de que la primera vez que se observa una racha de
r éxitos consecutivos ocurra en la tirada n, y qn la probabilidad de que en n
tiradas no haya ninguna racha de r éxitos consecutivos, vale que:
(x − 1)(1 − px) 1
fn ≃
(r + 1 − rx)q xn+1
1 − px 1
qn ≃
(r + 1 − rx)q xn+1
donde x es la menor solución a la ecuación s = 1 − qpr sr+1 , la misma se puede
encontrar de forma recursiva tomando g(s) = 1−qpr sr+1 , x0 = 1, xn+1 = g(xn ).
Demostración. Ver [3]. Trabaja con funciones generadoras (escapan los objetivos
del curso y conocimiento del autor).
81
Teorema 14.22 (*Rachas - Competencia). —Teorema ultra especı́fico, sirve
solo para un ejercicio que se pasó a complementarios— Del Feller VIII.1 [3] Sea
A el evento “un racha de α éxitos consecutivos ocurre antes que una racha de
β fracasos consecutivos” en un P.B. p, con q = 1 − p, vale que:
1 − qβ
P(A) = pα−1
pα−1 + q β−1
− pα−1 q β−1
1 − pα
P(B) = q β−1
pα−1 + q β−1 − pα−1 q β−1
Notar:
P(A) + P(B) = 1
i.e. en algún momento ocurre una racha de α éxitos o β fracasos (por más
grandes que sean α y β).
Demostración. Ver [3]. Esta se entiende fácil, hace algo parecido a lo que hicimos
en el problema de la rata o el del coleccionista.
14.5. Resumen
Tabla resumen para tener a mano. Las hipótesis son las del capı́tulo: ensayos
independientes con dos posibles resultados para las primeras o con r posibles
resultados para las últimas. La Letra es una arbitrariedad del curso, use la letra
que más le guste.
82
15. Proceso de Poisson
Seguiremos [1], Procesos de Poisson, 22 de abril de 2013. Se formaliza un
poco más la pérdida de memoria del proceso, y se agrega algún resultado sobre
el PPP mirado desde un t0 hacia atrás.
Tn := Sn − Sn−1 n∈N
83
Definimos también a la cantidad de arribos en el intervalo (s, t] a la que
llamaremos “incrementos”:
N(s,t] := Nt − Ns 0<s<t
(6) Si pensamos N (t) como una función (aleatoria, pues depende de las Sn ) de
t, tenemos N : R+ → N0 continua por derecha, no decreciente, que da saltos
en cada tiempo de arribo de altura 1. Hacer gráfico.
84
Demostración. Ver [1], Procesos de Poisson, teorema 1.5. No es tan larga y es
interesante. Arma la conjunta de las Gammas S1 . . . Sn a partir del proceso de
conteo tirando de galerazo unas integrales, y luego por jacobiano encuentra la
conjunta de las T1 . . . Tn .
Teorema 15.8 (Definiciones alternativas). Los enunciados (I) y (III) del teore-
ma anterior son caracterı́sticas únicas de los procesos de Poisson y sirven como
definiciones alternativas.
(I) Sea Π = {Sn : n ∈ N ∪ {0}} un P.P. tal que la densidad conjunta de los
primeros n tiempos de arribo está dada por
f(S1 ,S2 ,...,Sn ) (s1 , s2 , . . . , sn ) = λn e−λsn 1{0 < s1 < s2 < . . . < sn }
Demostración. Ver [1], Procesos de Poisson, tı́tulo 1.3. Es larga, hay que de-
mostrar que lo que se arma al “apilar” exponenciales independientes de tasa
λ es un proceso puntual, y que cumple las dos condiciones necesarias para ser
PPP.
Teorema 15.9 (Aditividades). Por si alguien no se avivó todavı́a, va de refuer-
zo:
Pn
1. Sean Ti V.A.I.I.D. exponenciales de tasa λ, y sea Sn = i=1 Ti , entonces
Sn tiene distribución Gamma (o Erlang) de parámetros n y λ, i.e.
Sn ∼ Γ(n, λ)
n
!
X
N ∼ Poi µi
i=1
85
Ejercicios
Pueden hacer ejercicios 7.1 (salvo inciso f), 7.2, 7.3.
86
Demostración. (Informal) Mismo procedimiento que en el teorema anterior, se
complica un poco la condición dos pues hay que condicionar las probabilidades
a T0 = t0 y aplicar fórmula de probabilidades totales.
de donde
T1∗ ∼ Exp(λ)
Caso 2: T0 V.A. positiva discreta
la distribución de N(T0 ,T0 +t] no nos es conocida pues depende de T0 , ası́ que
condicionamos por FPT:
X
··· = P(N(T0 ,T0 +t] = 0|T0 = t0 )P(T0 = t0 ) = · · ·
t0 ∈A(T0 )
como T0 = t0 reemplazamos:
X
··· = P(N(t0 ,t0 +t] = 0|T0 = t0 )P(T0 = t0 ) = · · ·
t0 ∈A(T0 )
X X
··· = e−λt P(T0 = t0 ) = e−λt P(T0 = t0 ) = e−λt
t0 ∈A(T0 ) t0 ∈A(T0 )
de donde
T1∗ ∼ Exp(λ)
Caso 3: T0 V.A. positiva continua Es lo mismo sólo que en lugar de una
sumatoria debemos resolver una integral y en lugar de P (T0 = t0 ) debe ir
fT0 (t0 )dt0 .
Queda al final:
Z Z
··· = e−λt fT0 (t0 )dt0 = e−λt fT0 (t0 )dt0 = e−λt
R R
de donde
T1∗ ∼ E(λ)
87
15.4. *Waiting time paradoxes
Teorema 15.14 (*Poisson hacia atrás). Sea Π un PPP(λ), t0 ∈ R+ positivo.
Definimos:
(−)
T1 := t0 − máx{Si : Si < t0 }
el tiempo que pasó desde la última marca hasta el instante arbitrario t0 ). Vale
(−)
que T1 se distribuye con la siguiente función de distribución:
(−) 1 − e−λt0
E[T1 ]=
λ
NOTA: Notar que si t0 grande, se trata de una V.A. exponencial. El resul-
tado se puede generalizar, para un proceso lo suficientemente viejo (en estado
estacionario), desde un t0 arbitrario se tiene un PPP(λ) tanto hacia adelante
como hacia atrás.
Teorema 15.15 (*Poisson hacia atrás y adelante). Sea Π un PPP(λ), t0 ∈ R+
positivo. Definimos:
Demostración. Ver [4], I.4 Waiting time paradoxes, hace una mezcla entre las
exponenciales. O calcular la densidad de W como la suma entre la primera
exponencial desde t0 y el tiempo hacia atrás.
Ejercicios
Pueden hacer ejercicios 7.5 optativo y muy teórico, 7.6.
88
15.5. Más propiedades
Hipótesis en general: Sn , Tn y N (t) como se definieron.
Teorema 15.16 (Tiempos de arribo dada cantidad arribada). Sabiendo que
hasta t hubo un solo arribo, T1 se distribuye uniformemente entre 0 y t, i.e.
T1 |Nt = 1 ∼ U (0, t)
o, equivalente:
s
P(T1 < s|Nt = 1) = 1 {0 < s < t} + 1 {t ≤ s}
t
Demostración. Demostrar en clase, deberı́a salir fácil.
Si fijamos ahora en un intervalo (a, d) la cantidad de arribos a exactamente
n, podemos pensar que esos n arribos se distribuyen como uniformes indepen-
dientes; si nos preguntamos qué pasa en un sector del intervalo (b, c) ⊂ (a, d),
obtenemos:
c−b
N(b,c] |N(a,d] = n ∼ B n, a≤b<c≤d
d−a
entonces,
n m c−b
P(N(b,c] = m|N(a,d] = n) = p (1 − p)n−m con p =
m d−a
Demostración. Demostrar en clase, deberı́a salir fácil. Tomar a = b = 0 sin
perder generalidad.
De manera similar, si fijamos el tiempo de arribo n + 1-ésimo y nos pregun-
tamos qué ocurrió antes, tendremos n marcas libres a distribuir en ese tiempo,
que lo harán como si fueran uniformes independientes. Lo podemos formalizar:
b−a
N(a,b] |Sn+1 = s ∼ B n, 0≤a<b<s
s
... y aún hay más, si por ejemplo fijamos la cantidad de arribos en (0, t] y
dividimos ese intervalo en 4 partes, con 0 < a < b < c < t
a b−a c−b t−c
((N (0, a], N (a, b], N (b, c], N (c, t])|N (t) = n) ∼ Mul n, , , ,
t t t t
Generalizando (informalmente), podemos decir que si Π es un proceso pun-
tual de Poisson de intensidad λ sobre R+ , condicional al evento N (t) = n, los
n arribos ocurridos en [0, t] tienen la misma distribución conjunta que la de n
puntos independientes elegidos al azar en [0, t] y luego ordenados de menor a
mayor.
Teorema 15.17 (Coloración). Sea Π un PPP sobre R+ de intensidad λ, y B
un PBG a valores {1 . . . r}. Colorearemos las marcas de r colores distintos de la
siguiente manera, a la marca n que ocurrió a tiempo Sn la pintamos del color
que nos indica la Xn (del PBG). Sean Πi los conjuntos de puntos (o tiempos de
arribo) pintados del color i, vale que Πi es un proceso de Poisson de intensidad
λi = pi λ, y los Πi son procesos independientes.
89
Demostración. Demostraremos qué pasa con el proceso de conteo para t fijo y
dos colores nada más. Si para un t fijamos la cantidad n de arribos del proceso
original, y deseamos saber cuántos de ellos debemos colorear del primer colo y
cuántos del segundo, basta con ver las primeras n Bernoullis y contar cuántas
son éxito
n!
P(N1 (t) = n1 , N2 (t) = n2 |N (t) = n) = pn1 pn2
n1 !n2 ! 1 2
por lo tanto, teniendo en cuenta n = n1 + n2 la probabilidad no condicional
será:
n1 +n2
(n1 + n2 )! n1 n2 −λt (λt)
P(N1 (t) = n1 , N2 (t) = n2 ) = p p e
n1 !n2 ! 1 2 (n1 + n2 )!
−p1 λt
(p1 λt)n1 e−p2 λt (p2 λt)n2
e
··· =
n1 ! n2 !
dos variables Poisson independientes de tasas p1 λ y p2 λ
Se generaliza a r colores fácilmente. Y la propiedad de homogeneidad del
proceso original Π se traslada a los procesos nuevos.
(n − 1)!
fS1 ,...Sn−1 |Sn =sn (s1 , . . . sn−1 ) = 1{0 < s1 < · · · < sn−1 < sn }
sn−1
n
Ejercicios
Pueden hacer ejercicios 7.7, 7.9, 7.10, 7.12, 7.13, 7.17. Optativos 7.15 y 7.16
viendo Proceso de Poisson compueto a continuación.
90
V.A.I.I.D. cualesquiera independientes de las N (t). Definimos el proceso de pois-
son compuesto:
N (t)
X
X(t) := Yi
i=1
Vale que:
1. Si E[Yi ] finita, E[X(t)] = λt · E[Y1 ]
2. Si var(Yi ) finita, var(X(t)) = λt · E[Y12 ]
15.6. Resumen
Tabla resumen para tener a mano. Las hipótesis son las del capı́tulo: un
proceso puntual de Poisson. La Letra es una arbitrariedad del curso, use la letra
que más le guste.
91
16. Variable normal y TCL
16.1. La variable normal univariada
Definición 16.1 (Normal y normal estándar). Diremos X ∼ N (µ, σ 2 ) si
(x − µ)2
1
fX (x) = √ exp −
σ 2π 2σ 2
4 print(’Ej. 2.9’)
5 mu, sig2 = 0., 1.
6 va_Z = [Link](mu, sig2**0.5) #Define variable aleatoria Z ~ N(mu, sig2)
7 #notar que hay que pasarle el desvio y no la varianza
8 z = 1
9 alpha = 0.1
10 print(f’P(Z<{z}) = {va_Z.cdf(z)}’) #cumulative distribution function
11 print(f’P(Z>{z}) = {va_Z.sf(z)}’) #survival funcion
12 print(f’z_{alpha} = {va_Z.ppf(alpha)}’) #percent point function (cuant.)
13 print(f’z_(1-{alpha}) = {va_Z.isf(alpha)}’) #inverse survival function
zα = −z1−α α ∈ (0, 1)
Demostración. Inmediata, la gráfica de φ(z) es simétrica respecto al eje z = 0
(es función par).
Teorema 16.4 (Estandarización y cálculo). Sea X ∼ N (µ, σ 2 ), Z := (X −µ)/σ
vale que Z es normal estándar. Luego:
92
x−µ
P (X ≤ x) = Φ σ
b−µ a−µ
P (a < X ≤ b) = Φ σ −Φ σ
c −c c
P (|X − µ| < c) = Φ σ −Φ σ = 2Φ σ −1
93
Demostración. Ver Feller Tomo I [3], capı́tulo VII - The normal aproximation
to the binomial distribution
Teorema 16.8 (Teorema central del lı́mite). Sea Xi : i ∈ N una sucesión de
variables aleatorias independientes, todas con la misma distribución, con media
µ y varianza σ 2 (finitas). Sea
Xn
S := Xi
i=1
Vale que:
S − nµ
lı́m P √ ≤z = Φ(z)
n→∞ n · σ2
∼
Aplicación: Para n grande diremos S ∼ N (nµ, nσ 2 ). Luego:
P (S ≤ x) ≃ Φ x−nµ
√
nσ
b−nµ a−nµ
P (a < S ≤ b) ≃ Φ √
nσ
−Φ √
nσ
S
P n − µ ≤ a √σn ≃ 2Φ(a) − 1
Ejercicios
Pueden hacer 8.1 a 8.5, 8.7, 8.10 a 8.12, 8.15, 8.16, 8.18, 8.19. Y optativos
8.13, 8.14, 8.22.
(x1 − µ1 )2
1 −1
fX1 ,X2 (x1 , x2 ) = exp +
2(1 − ρ2 ) σ12
p
2πσ1 σ2 1 − ρ2
(x2 − µ2 )2
2ρ(x1 − µ1 )(x2 − µ2 )
−
σ22 σ1 σ2
σ12
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
94
Teorema 16.10 (Marginales y condicionales). Sea (X1 , X2 ) ∼ N (µ, Σ) con:
σ12
µ1 ρσ1 σ2
µ= Σ=
µ2 ρσ1 σ2 σ22
vale que:
X1 ∼ N (µ1 , σ12 )
X2 ∼ N (µ2 , σ22 )
X1 |X2 = x2 ∼ N µ1 + ρσ1 x2σ−µ
2
2
, (1 − ρ 2 2
)σ 1
X2 |X1 = x1 ∼ N µ2 + ρσ2 x1σ−µ
1
1
, (1 − ρ 2 2
)σ 2
95
Referencias
[1] Grynberg, S. Borradores, Curso 23. Buenos Aires: [digital], marzo a junio
de 2013.
[2] Maronna, R. Probabilidad y Estadı́stica Elementales para Estudiantes de
Ciencia. 1ra ed. La Plata: [digital], 1995.
[3] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
I. 2da ed. New York: John Wiley & Sons, 1957.
[4] Feller, W. An Introduction to Probability Theory and Its Applications, Vol.
II. 2da ed. New York: John Wiley & Sons, 1971.
[5] Grimmet, G., Stirzaker, D. Probability and Random Processes. 3ra. ed. Gran
Bretaña: Oxford University Press, 2001.
[6] DeGroot, M. H. Probability and Statistics. 2nd. ed. [Link].: Addison-
Wesley Publishing Company, 1989.
[7] Billingsley, P. Probability and Measure. 3rd. ed. [Link].: New York: John
Wiley & Sons, 1995.
[8] [Varios artı́culos: ‘· distribution’]. En Wikipedia, The Free Encyclopedia.
Consultados en Julio 2016.
[11] Gentle, J. E. Random Number Generation and Monte Carlo Methods. 2nd.
ed. [Link].: Springer, 2005.
96