0% encontró este documento útil (0 votos)
77 vistas13 páginas

Introducción a Probabilidad y Estocásticos

Este documento presenta una introducción a la teoría de la probabilidad y los procesos estocásticos. Primero define conceptos básicos de probabilidad como espacio muestral, eventos y distribuciones de probabilidad usando ejemplos como el lanzamiento de un dado. Luego introduce la probabilidad condicional y el teorema de Bayes. Finalmente, menciona que los procesos estocásticos son una amplia área de estudio con aplicaciones en ingeniería e industrias financieras.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
77 vistas13 páginas

Introducción a Probabilidad y Estocásticos

Este documento presenta una introducción a la teoría de la probabilidad y los procesos estocásticos. Primero define conceptos básicos de probabilidad como espacio muestral, eventos y distribuciones de probabilidad usando ejemplos como el lanzamiento de un dado. Luego introduce la probabilidad condicional y el teorema de Bayes. Finalmente, menciona que los procesos estocásticos son una amplia área de estudio con aplicaciones en ingeniería e industrias financieras.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Apéndice 4: Probabilidad y procesos estocásticos

A4.1 Introducción

La teoría de la probabilidad es una rama altamente desarrollada de las matemáticas, que


utiliza el formalismo de la teoría de la medida. Para el lector interesado recomendamos
[1]. Sin embargo, para efectos de este libro nos centraremos en lo que se podría llamar
“probabilidad aplicada”, donde se pueden obtener muchos resultados útiles, aplicables en
la mayoría de casos, a partir de definiciones menos generales pero más intuitivas. Incluso
sin excesiva rigurosidad, la probabilidad y sus aplicaciones forman una vasta área del
conocimiento (ver por ejemplo [2,3]) que no podríamos cubrir aquí. Sin embargo,
queremos que este libro sirva para un curso sin demasiados prerrequisitos, así que este
apéndice pretende dar una introducción intuitiva a la probabilidad con el mínimo de
formalismo y presentar algunos resultados que se necesitarán del capítulo 4 en adelante.
El estudio de los procesos estocásticos es otra área vasta (ver por ejemplo [4]),
especialmente en términos de sus aplicaciones desde la ingeniería electrónica hasta las
finanzas. Los temas requeridos de ésta área se trabajarán en los capítulos 4 y 5 así que
aquí se presentan sólo las definiciones básicas.

A4.2 Definiciones, probabilidades discretas

Para ilustrar las definiciones usaremos el ejemplo de un dado, llamando x al número que
salga en el dado. El espacio muestral Ω es el conjunto ({1,2,3,4,5,6}) de posibles instancias
de la variable aleatoria X (lanzamiento del dado) que queremos estudiar. Los eventos (por
ejemplo, x=3 o “x es par”) son todos los posibles subconjuntos de Ω. Formalmente, la
probabilidad está dada por un mapeo P entre el conjunto de posibles eventos y el
intervalo [0,1] con ciertas condiciones. ¿Pero que quiere decir esto intuitivamente? Si
lanzamos el dado un gran número de veces, esperaríamos que aproximadamente 1/6 de
las veces sacáramos un número particular, por ejemplo x=3. Dicho de otro modo, si hago
el lanzamiento infinitas veces esperaríamos que la fracción de las veces que sale 3 tienda a
1/6.¿Por qué hablar de muchas o infinitas veces? Porque si hiciera sólo seis lanzamientos
esperaría que uno de ellos fuera un 3 pero no sería una gran sorpresa si ninguno de ellos
lo fuera. En cambio, si hago 600 lanzamientos sería una gran sorpresa si menos de 20
fueran 3, al punto de hacerme sospechar de la calidad del dado.

Esta interpretación de límite de frecuencias coincide con lo que se quiere decir al usar
expresiones como “hay un 70% de probabilidad” de que suceda algo. Esto es la otra
posible interpretación: un reflejo de nuestra ignorancia. Otra forma de entender la
Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)
frecuencia es como en mecánica estadística: como la fracción de sistemas en las que
sucede un evento si existieran muchas copias idénticas del sistema actuando
simultáneamente. Esto implica que P(Ω)=1, ya que la probabilidad de que salga alguno de
todos los resultados posibles es 100%, o dicho de otro modo, todas las copias del sistema
deben quedar en alguno de los resultados posibles. Otra consecuencia natural es que las
probabilidades son no-negativas, y por último, si estamos contando el número de copias
que tuvieron un resultado A y las que tuvieron un resultado diferente B, el número total
es simplemente la suma y la probabilidad total es la suma de las dos probabilidades
individuales.

Definiremos la probabilidad del evento base x como el número P(x), la frecuencia que
acabamos de ilustrar, y la probabilidad de un evento cualquiera A como la suma de P(x)
sobre todos los eventos base en el evento, 𝑃𝑃(𝐴𝐴) = ∑𝑥𝑥𝑥𝑥𝑥𝑥 𝑃𝑃(𝑥𝑥). Llamaremos entonces
distribución de probabilidad a la lista de valores P(x). El definir los eventos como
cualquier elemento de los posibles subconjuntos de Ω implica ciertas condiciones sobre la
función P y lleva al uso del lenguaje de teoría de conjuntos para hablar de los eventos.
Eventos como “que x salga 3”, “que no salga 3” o “que x sea par” están descritos por
subconjuntos de Ω, en este caso A = {3}, B = {1,2,4,5,6} y C = {2,4,6}. La ventaja de esta
notación es que es muy claro cómo calcular las probabilidades de un evento complejo a
partir de las de eventos individuales. Por ejemplo, el evento C = {2,4,6} = {2} ∪ {4} ∪ {6}
1 1 1 1
tiene probabilidad 𝑃𝑃(𝐶𝐶) = 𝑃𝑃(2) + 𝑃𝑃(4) + 𝑃𝑃(6) = 6 + 6 + 6 = 2. O el evento D, “que
salga un número par y mayor a 2” se puede ver como la intersección de los conjuntos par
1
y “mayor a dos”, es decir D = {2,4,6} ∩ {3,4,5,6} = {4,6} y 𝑃𝑃(𝐷𝐷) = 𝑃𝑃(4) + 𝑃𝑃(6) = 6 +
1 1
6
= 3. Esto también da sentido al uso de diagramas de Venn, como

Figura 1. Ejemplo de diagrama de Venn

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


En la Figura 1 el área representa la probabilidad de los eventos individuales dentro de
cada conjunto. Así, la probabilidad de A es el área azul, la probabilidad de eventos que
están tanto en A como en B (𝑃𝑃(A ∩ B)) es el área morada, y la probabilidad de eventos
que están en A o en B (𝑃𝑃(A ∪ B)) es área total azul y roja, incluida el área morada. Esto
ilustra como el álgebra de conjuntos [5] nos da información sobre las probabilidades: por
ejemplo, 𝑃𝑃(A ∪ B) = 𝑃𝑃(A) + 𝑃𝑃(B) − 𝑃𝑃(A ∩ B) y no simplemente 𝑃𝑃(A) + 𝑃𝑃(B), ya que
esto contaría dos veces el área morada. Otros ejemplos: 𝑃𝑃(A ∩ C) = 0, ya que no hay un
área en donde coincidan A y C, y 𝑃𝑃(B ∩ ¬C), la probabilidad de que suceda B pero no C
es el área roja menos la naranja, 𝑃𝑃(B) − 𝑃𝑃(B ∩ C). Para quienes no están familiarizados
con teoría de conjuntos, en muchos casos basta un diagrama de Venn o un poco de
razonamiento ordenado. Por ejemplo, en el caso del dado, usando A como ”números
menores que 4”, A = {1,2,3}, B como “números pares”, B = {2,4,6}, y C como “x=6”, C =
{6}, vemos que la probabilidad de que el resultado sea par o menor que 4, 𝑃𝑃(A ∪ B), es
1 1 1 5
𝑃𝑃({1,2,3,4,6}) = 𝑃𝑃({2,4,6}) + 𝑃𝑃({1,2,3}) − 𝑃𝑃({2}) = 2 + 2 − 6 = 6; la probabilidad de
1
que el resultado sea par y no sea 6, 𝑃𝑃(B ∩ ¬C) es 𝑃𝑃({2,4}) = 𝑃𝑃({2,4,6}) − 𝑃𝑃({6}) = 2 −
1 1
6
= 3.

Otra forma de obtener la probabilidad de los eventos, de utilidad en muchos casos, en


particular cuando la probabilidad de los eventos individuales es la misma, es simplemente
contando los eventos base. Esto puede complicarse rápidamente, por lo que para muchos
problemas es útil recurrir a la combinatoria, el área de las matemáticas que (en términos
muy básicos) se ocupa de contar objetos y sus combinaciones [6]. Para ilustrar esto
recurriremos a un nuevo ejemplo: supongamos que nos interesa la suma del lanzamiento
de dos dados. En este caso, el espacio muestral Ω podría ser el conjunto de números del 2
al 12, de 10 elementos cada uno con probabilidad diferente. Pero podemos definir el
espacio como el resultado de los dos dados y definir los eventos de interés como “la suma
es igual a 2”, “la suma es igual a 3”, etc. En este caso, el espacio muestral Ω es el conjunto
de 36 pares (1,2), (1,3), (2,1), etc., todos con la misma probabilidad, que por 𝑃𝑃(Ω) =
∑𝑥𝑥𝑥𝑥Ω 𝑃𝑃(𝑥𝑥) = 1 es 1/36. Para encontrar la probabilidad de cualquier evento basta con
contar cuantos pares contiene y multiplicar por la probabilidad de cada par. Por ejemplo,
en el evento “la suma es igual a 3” hay dos pares posibles: (1,3) y (3,1), por lo que la
probabilidad es 2/36. Para el evento “la suma es igual a 6” hay cinco pares posibles: (1,5),
(5,1), (2,4), (4,2), y (3,3), por lo que la probabilidad es 5/36. La probabilidad para todos los
resultados posibles se muestra en la Fig. 2B. En general esto se puede resumir como
𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑒𝑒𝑒𝑒 𝐴𝐴
𝑃𝑃(A) = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡.

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


Figura 2. Distribuciones discretas. A. Distribución uniforme para un dado. B. Distribución para la
suma de dos dados.

A4.3 Probabilidad condicional, teorema de Bayes

Un concepto crucial es el de la probabilidad condicional. De nuevo lo ilustraremos primero


con un ejemplo. Vamos a lanzar un dado azul y uno rojo. Llamaremos x a lo que salga en el
dado azul, y a lo que salga en el rojo, y z a la suma de los dos. Las probabilidades P(x) y
P(y) son uniformes (figura 2A), con Ω = {1,2,3,4,5,6} , y P(z) es la ilustrada en la figura 2B,
con Ω = {2,3, . . ,11,12}. Si bien P(z) se puede definir por sí sola, como definimos el
sistema el valor de z que salga depende de los valores que hayan salido en x y y, así que
para evaluar todo junto usaremos la descripción donde Ω = {(1,1), (1,2), … , (6,6)}, con
eventos base de probabilidad 1/36 y donde los eventos que nos interesan son X=”el
primer valor es x”, Y=”el segundo valor es y” y Z=”la suma de los dos valores es z”. Las
probabilidades de estos compuestos son las que uno esperaría: por ejemplo, P(x=2) es el
número se eventos con 2 como primer valor, de los cuales hay 6: (2,1),(2,2), etc., sobre el
6 1
total, es decir 36 = 6.

Es este marco, es natural preguntar cosas como “¿cuál es la probabilidad de que z=5 y que
x=2?”. Esto equivale a preguntar cuántos pares hay tales que el primer valor sea 2 y el
total 5, y la respuesta es uno: (2,3), es decir la probabilidad es 1/36. Una pregunta más
sutil es “¿cuál es la probabilidad de que z=5 dado que x=2?”. Al decir que ya sabemos que
x=2, estamos reduciendo el espacio muestral a los pares (2,1), (2,2), etc. La pregunta es
ahora, dentro de ese espacio muestral, cuántos pares tienen suma igual a 5, y la respuesta
es uno: (2,3), es decir la probabilidad es 1/6 ya que es un par de seis posibles. También
podemos preguntar “¿cuál es la probabilidad de que x=2 dado que z=5?”. Aquí estamos
reduciendo el espacio muestral a los pares (2,3), (3,2), (1,4) y (4,1), de los cuales solo uno

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


cumple la condición requerida, así que la probabilidad es 1/4. En el lenguaje de conjuntos,
si llamamos A a “x=2” y B a “z=5”, la primera respuesta es el área de A ∩ B sobre el área
de Ω, la segunda es el área de A ∩ B sobre el área de A, y la tercera es el área de A ∩ B
sobre el área de B.

Estas preguntas ilustran la probabilidad conjunta de A y B 𝑃𝑃(A, B) ≡ 𝑃𝑃(A ∩ B) en el


𝑃𝑃(A∩B)
primer caso, la probabilidad condicional 𝑃𝑃(B|A) ≡ , “probabilidad de B dado A”, en
𝑃𝑃(A)
𝑃𝑃(A∩B)
el segundo y la probabilidad condicional 𝑃𝑃(A|B) = en el tercero. Hay que tener
𝑃𝑃(B)
cuidado con algunas fuentes que usan la notación inversa, donde 𝑃𝑃(A|B) no quiere decir
“A dado B“ sino “B dado A”. También es importante notar que no se requiere una relación
de causalidad entre las variables para que tengan sentido estas expresiones. Combinando
estas expresiones obtenemos

𝑃𝑃(A, B)
𝑃𝑃(B|A) = → 𝑃𝑃(A, B) = 𝑃𝑃(B|A)𝑃𝑃(A)
𝑃𝑃(A)
𝑃𝑃(A, B)
𝑃𝑃(A|B) = → 𝑃𝑃(A, B) = 𝑃𝑃(A|B)𝑃𝑃(B),
𝑃𝑃(B)
Y combinando estas obtenemos el teorema de Bayes,

𝑃𝑃(B|A)𝑃𝑃(A)
𝑃𝑃(A|B) = .
𝑃𝑃(B)
La sencillez de esta expresión oculta su enorme poder, ilustrado en el siguiente problema:
suponga que usted recibe partes iguales de dos fábricas, F y G, que recibe 9 veces más
partes de F que de G y que la tasa de piezas defectuosas es 1/100 para F y 8/100 para G.
Esto implica que la probabilidad de que una pieza esté dañada es la probabilidad de que
venga de F, 9/10, por la de que venga dañada de F, 1/100, más la de que venga de G, 1/10,
por la de que venga dañada de G, 8/100, lo que da 17/1000. ¿Dado que una pieza está
defectuosa, cuál es la probabilidad de venga de la fábrica G? Sin el teorema, es una
pregunta difícil, y uno podría pensar que probablemente viene de G dado su mal record
de calidad. Para usar el teorema, definiremos 𝑃𝑃(G) como la probabilidad de que una
pieza venga de G, 𝑃𝑃(D) como la probabilidad de que una pieza sea defectuosa, así que
𝑃𝑃(G|D) es la probabilidad de que venga de G dado que es defectuosa. Usando el teorema,
8 1
𝑃𝑃(D|G)𝑃𝑃(G) 100 10 8 1
𝑃𝑃(G|D) = = = <
𝑃𝑃(D) 17 17 2
1000
Es decir, si se encuentra una pieza defectuosa es más probable que venga de F que de G,
simplemente porque la mayoría de piezas vienen de F. Un ejemplo similar es el de errores

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


en exámenes médicos, donde la conclusión es más impactante: para condiciones
inusuales, si el error no es muy pequeño un resultado positivo tiene mayor probabilidad
de ser de un paciente sano (falso positivo) que de un paciente enfermo simplemente
porque hay muchos más pacientes sanos.

Otra consecuencia importante de las definiciones es que la suma sobre todas las opciones
de una variable la elimina: ∑𝑌𝑌 𝑃𝑃(x, y) = 𝑃𝑃(x). Esto se puede entender en el ejemplo de
los dos dados: como vimos, la probabilidad de sacar 2 en el primer dado es 1/6, ya que
hay 6 de los 36 pares donde sucede esto: (2,1), (2,2), etc. Peor esto se puede expresar
como la suma de la probabilidad de que x sea 2 y y sea 1 más la probabilidad de que x sea
2 y y sea 2, etc., es decir 𝑃𝑃(2) = ∑6𝑦𝑦=1 𝑃𝑃(2, y). Reemplazando la conjunta por su expresión
en términos de la condicional, obtenemos

𝑃𝑃(x) = � 𝑃𝑃(x, y) = � 𝑃𝑃(x|y) 𝑃𝑃(y),


𝑌𝑌 𝑌𝑌

Es decir, la probabilidad de un evento se puede obtener sumando la probabilidad de que


ocurra dada una condición por la probabilidad de que ocurra dicha condición, sobre todas
las condiciones posibles. Esto es lo que usamos implícitamente al calcular 𝑃𝑃(D) en el
ejemplo de las fábricas, 𝑃𝑃(D) = 𝑃𝑃(D|F)𝑃𝑃(F) + 𝑃𝑃(D|G)𝑃𝑃(G).

A4.4 Valor esperado, momentos

El estudio de la probabilidad surgió del interés en los juegos de azar, y estos nos servirán
para ilustrar un concepto fundamental: el valor esperado de una función de una variable
aleatoria. Sea f(x) alguna función de Ω a los reales, y pensemos en ella como una función
de pago: cuánto recibimos o perdemos si el resultado es x. Por ejemplo, un sencillo juego
de azar es si yo apuesto una cantidad a a que sale en un dado el valor xa, y si acierto gano
la cantidad b (que incluye recuperar mi apuesta). Es decir, f(x) es –a para todo x excepto
xa, y f(x𝑎𝑎 ) = b. Para hacerlo aún más específico, digamos que apuesto 10 a que sale 6, y si
gano recibo 50 (mis 10 originales más otros 10). ¿Qué puedo esperar que suceda? Hay
1
cinco opciones, cada una con probabilidad 6 de ocurrir, en que pierdo 10, y una opción
1 5
con probabilidad 6 , en que gano 60, es decir, gano -10 con probabilidad 6 y 60 con
1 −50+60 10
probabilidad 6 , para un total de 6
= 6
. Este número indica que si jugara muchas
10
veces, en promedio ganaría 6
por jugada, así que es un buen juego para mí. Para que el
juego fuera justo, este número debería ser 0, ya que esto implicaría que después de
muchas jugadas tanto quien me recibe la apuesta como yo saldríamos, en promedio, con

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


la misma cantidad con la que empezamos. Para que esto suceda, el pago por acertar
debería ser 50. Nótese que esto es la base de una lotería: Si compro un boleto con un
número de 5 dígitos y una serie de 0 a 99, existen 100*105 opciones, así que mi
probabilidad de acertar es 10-7; si el premio mayor es 100 millones (en alguna unidad
monetaria) la boleta debería costar sólo 10 unidades para que el juego fuera justo.

Formalmente, definimos el valor esperado de la función f(x) dada la distribución de


probabilidad P(x) como 〈𝑓𝑓(𝑥𝑥)〉 = ∑𝑥𝑥𝑥𝑥Ω 𝑓𝑓(𝑥𝑥)𝑃𝑃(𝑥𝑥). En el ejemplo de apostar al dado, eso
1 1 10
sería 〈𝑓𝑓(𝑖𝑖)〉 = ∑6𝑖𝑖=1 𝑓𝑓(𝑖𝑖)𝑃𝑃(𝑖𝑖) = −10 ∗ 6 + ⋯ + 60 ∗ 6 = 6
. Un caso particular importante
es cuando 𝑓𝑓(𝑥𝑥) = 𝑥𝑥, de modo que 〈𝑥𝑥〉 = ∑𝑥𝑥𝑥𝑥Ω 𝑥𝑥𝑥𝑥(𝑥𝑥) ≡ 𝑥𝑥̅ , el promedio o media de P(x).
Otro caso útil es la varianza, e 𝜎𝜎𝑥𝑥2 ≡ 〈(𝑥𝑥 − 𝑥𝑥̅ )2 〉 = ∑𝑥𝑥𝑥𝑥Ω(𝑥𝑥 − 〈𝑥𝑥〉)2 𝑃𝑃(𝑥𝑥), cuya
interpretación discutiremos a continuación. En general definimos el enésimo momento de
una distribución alrededor de c como 𝜇𝜇𝑛𝑛 ≡ 〈(𝑥𝑥 − 𝑐𝑐)𝑛𝑛 〉, con lo que la varianza es el
segundo momento alrededor de la media.

La función P(x) describe completamente un sistema aleatorio, pero a veces no es posible


obtenerla explícitamente, o se requiere información resumida sobre ella. Es para esto que
se utilizan los momentos. Como se muestra en la figura 3, el promedio da información
sobre la ubicación del “centro” de la distribución. Las comillas se deben a que hay que
especificar que se busca caracterizar: por ejemplo, la moda es el evento más probable, la
mediana es el evento donde la probabilidad es igual a derecha e izquierda, y el promedio
es lo que se definió arriba, y estos tres valores pueden ser diferentes. El promedio ni
1 1
siquiera tiene que ser un evento; por ejemplo, para un dado 𝑥𝑥̅ = 1 ∗ 6 + 2 ∗ 6 + ⋯ + 6 ∗
1
6
= 3,5.

Lo siguiente que podríamos querer saber sobre la distribución es su ancho. Una forma de
pensar esto es en la interpretación de frecuencias: cuántos eventos suceden a una
distancia dada del centro. Esto sería algo como ∑𝑥𝑥𝑥𝑥Ω(𝑥𝑥 − 〈𝑥𝑥〉)𝑃𝑃(𝑥𝑥), pero esto es cero por
definición ya que los de un lado se cancelan con los del otro, así que habría que agregar un
valor absoluto: ∑𝑥𝑥𝑥𝑥Ω|𝑥𝑥 − 〈𝑥𝑥〉|𝑃𝑃(𝑥𝑥). Esto sería la medida más directa, pero el uso de
funciones no derivables puede ser inconveniente, así que en general se usa más la
expresión�∑𝑥𝑥𝑥𝑥Ω(𝑥𝑥 − 〈𝑥𝑥〉)2 𝑃𝑃(𝑥𝑥) = �〈(𝑥𝑥 − 𝑥𝑥̅ )2 〉 ≡ 𝜎𝜎𝑥𝑥 , la desviación estándar, que es
una medida equivalente del ancho de la distribución. De manera análoga, los siguientes
momentos nos dan información adicional sobre la distribución, por ejemplo 𝜇𝜇3 indica la
asimetría derecha-izquierda. Como veremos, tener todos los momentos es equivalente a
tener la distribución.

Para situaciones donde lo que nos interesa es saber la confiabilidad de la media para
describir resumidamente un sistema que en realidad es una distribución, lo que nos

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


interesa es el ancho relativo de la distribución. La razón es que decir que una distribución
tiene un “ancho” de 5 quiere decir que la variabilidad alrededor de la media es muy
grande si la media es 6 pero quiere decir que la variabilidad alrededor de la media es muy
pequeña si la media es 10000. Por esto definiremos el coeficiente de variación (al que nos
𝜎𝜎
referiremos simplemente como el ruido) 𝐶𝐶𝐶𝐶 = 𝜂𝜂 ≡ 〈𝑥𝑥〉𝑥𝑥 . Esta es sólo una de muchas
medidas posible del ruido.

El equivalente a la varianza para dos variables aleatorias es la covarianza, 𝐶𝐶𝑥𝑥,𝑦𝑦 =


〈(𝑥𝑥 − 𝑥𝑥̅ )(𝑦𝑦 − 𝑦𝑦�)〉 = 〈𝑥𝑥𝑥𝑥〉 − 〈𝑥𝑥〉〈𝑦𝑦〉, que es igual a la varianza si x=y. Si 𝑃𝑃(𝑥𝑥, 𝑦𝑦) = 𝑃𝑃(𝑥𝑥)𝑃𝑃(𝑦𝑦)
se dice que x y y son independientes, y 𝐶𝐶𝑥𝑥,𝑦𝑦 = 0 ya que en ese caso 〈𝑥𝑥𝑥𝑥〉 =
∑𝑥𝑥,𝑦𝑦 𝑥𝑥𝑥𝑥𝑥𝑥(𝑥𝑥, 𝑦𝑦) = ∑𝑥𝑥,𝑦𝑦 𝑥𝑥𝑥𝑥(𝑥𝑥) 𝑦𝑦𝑦𝑦(𝑦𝑦) = 〈𝑥𝑥〉〈𝑦𝑦〉. Es importante recordar que esto no
funciona en sentido contrario, ya que dos variables pueden tener covarianza 0 sin ser
𝐶𝐶𝑥𝑥,𝑦𝑦
independientes. Dos normalizaciones útiles son el coeficiente de correlación 〈𝑥𝑥〉〈𝑦𝑦〉 y el
𝐶𝐶𝑥𝑥,𝑦𝑦
coeficiente de correlación de Pearson, 𝜌𝜌𝑥𝑥,𝑦𝑦 = 𝜎𝜎 .
𝑥𝑥 𝜎𝜎𝑦𝑦

A4.5 Ejemplos de distribuciones discretas

Tres ejemplos de distribuciones discretas relevantes son la Uniforme, la de Poisson, y la


Binomial, ilustradas respectivamente en las figuras 2A, 3A y 3B.

Figura 3. Distribuciones discretas. A. Distribución de Poisson con 𝜆𝜆 = 1,5. B. Distribución Binomial


con n=20 y p=0,6.

La distribución uniforme surge cuando hay N posibles eventos y todos son igualmente
1
probables; por normalización ésta es 𝑃𝑃(𝑥𝑥) = 𝑁𝑁. Si los eventos están numerados de 1 a N,

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


1 𝑁𝑁+1 𝑁𝑁+1
su promedio es 〈𝑛𝑛〉 = ∑𝑁𝑁
𝑛𝑛=1 𝑛𝑛 𝑁𝑁 = 2
, no existe una moda, la mediana es 2
si N es
𝑁𝑁 2 −1
impar y su varianza es 𝜎𝜎𝑛𝑛2 = 12
.

La distribución de Poisson describe el total de eventos que ocurren en un intervalo de


tiempo dado si cada evento es equiprobable e independiente de los otros. Si en promedio
𝜆𝜆𝑥𝑥
ocurren 𝜆𝜆 eventos, la probabilidad de que ocurran x eventos es 𝑃𝑃(𝑥𝑥) = 𝑒𝑒 − 𝜆𝜆 . Por
𝑥𝑥!
ejemplo, si a un almacén llegan en promedio 5 clientes por hora, bajo ciertas condiciones
510
la probabilidad de que lleguen 10 en una hora es 𝑃𝑃(10) = 𝑒𝑒 − 5 = 1,8%, y la de que
10!
55
lleguen exactamente 5 es 𝑃𝑃(5) = 𝑒𝑒 − 5 = 17%. A medida que aumenta 𝜆𝜆, la forma de
5!
la distribución cambia de casi exponencial para 𝜆𝜆 < 1, a una forma claramente asimétrica
como la de la figura 3A hasta 𝜆𝜆 de orden 10, a una figura de campana para 𝜆𝜆 grandes. Para
𝜆𝜆 muy grandes tiende a una Gaussiana (ver sección A4.6). Su promedio es 〈𝑥𝑥〉 =
𝜆𝜆𝑥𝑥 𝜆𝜆𝑥𝑥 𝜆𝜆𝑥𝑥 𝜆𝜆𝑦𝑦+1 𝜆𝜆𝑦𝑦
∑∞
𝑥𝑥=0 𝑥𝑥 𝑒𝑒 − 𝜆𝜆 = ∑∞
𝑥𝑥=1 𝑥𝑥 𝑥𝑥! 𝑒𝑒
− 𝜆𝜆
= ∑∞
𝑥𝑥=1 (𝑥𝑥−1)! 𝑒𝑒
− 𝜆𝜆
= ∑∞
𝑦𝑦=0 𝑒𝑒 − 𝜆𝜆 = 𝜆𝜆 ∑∞
𝑦𝑦=0 𝑦𝑦! 𝑒𝑒
− 𝜆𝜆
= 𝜆𝜆,
𝑥𝑥! 𝑦𝑦!
por normalización de la probabilidad. Análogamente, podemos obtener 〈𝑥𝑥 2 〉 = 𝜆𝜆2 + 𝜆𝜆, de
donde obtenemos que 𝜎𝜎𝑥𝑥2 = 𝜆𝜆. Esta inusual propiedad de la distribución de Poisson
𝜎𝜎2
inspiró una medida del ruido llamada el factor de Fano, definido como 𝑓𝑓 ≡ 〈𝑥𝑥〉𝑥𝑥 .

La distribución binomial corresponde a una situación donde n eventos independientes


pueden ocurrir con probabilidad individual p y nos interesa saber la probabilidad de que
𝑛𝑛! 𝑛𝑛! 𝑛𝑛
en total ocurran x de ellos. La respuesta es 𝑃𝑃(𝑥𝑥) = 𝑥𝑥!(𝑛𝑛−𝑥𝑥)! 𝑝𝑝 𝑥𝑥 (1 − 𝑝𝑝)(𝑛𝑛−𝑥𝑥) . 𝑥𝑥!(𝑛𝑛−𝑥𝑥)! ≡ � �
𝑥𝑥
se llama la combinaciones de x en n, el coeficiente binomial, o simplemente “n escoge x”.
Un ejemplo importante tanto en física como en biología es la caminata aleatoria: suponga
que una partícula se mueve en pasos discretos, y puede moverse a la derecha con
probabilidad p o a la izquierda con probabilidad (1 − 𝑝𝑝) ≡ 𝑞𝑞. Si nos interesa dónde está
después de n pasos, la distribución binomial nos da el número de pasos a la derecha así
que su posición final será x-(n-x)=2x-n. En esta situación se tiene una interpretación
𝑛𝑛!
intuitiva de los términos de la distribución: 𝑥𝑥!(𝑛𝑛−𝑥𝑥)! es el número de posibles ordenes de x
pasos a la derecha y (n-x) pasos a la izquierda, 𝑝𝑝 𝑥𝑥 es la probabilidad de dar x pasos a la
derecha y 𝑞𝑞 (𝑛𝑛−𝑥𝑥) es la probabilidad de dar (n-x) pasos a la izquierda. Su promedio es
𝑛𝑛!
〈𝑥𝑥〉 = ∑𝑛𝑛𝑥𝑥=0 𝑥𝑥 𝑝𝑝 𝑥𝑥 𝑞𝑞 (𝑛𝑛−𝑥𝑥) = 𝑛𝑛𝑛𝑛. Esto tiene sentido, ya que si p es la probabilidad de
𝑥𝑥!(𝑛𝑛−𝑥𝑥)!
dar el paso a la derecha y el total es n uno esperaría que la fracción correspondiente sea
np pasos. Para mostrarlo fácilmente resulta útil el siguiente truco: consideremos q como
una variable independiente, y sólo al final remplazamos 𝑞𝑞 = (1 − 𝑝𝑝). entonces 𝑥𝑥𝑝𝑝 𝑥𝑥 =
𝜕𝜕𝑝𝑝𝑥𝑥 𝑛𝑛! 𝜕𝜕𝑝𝑝𝑥𝑥 𝜕𝜕 𝑛𝑛! 𝜕𝜕
𝑝𝑝 , y 〈𝑥𝑥〉 = ∑𝑛𝑛𝑥𝑥=0 𝑥𝑥!(𝑛𝑛−𝑥𝑥)! 𝑝𝑝 𝑞𝑞 (𝑛𝑛−𝑥𝑥) = 𝑝𝑝 𝜕𝜕𝜕𝜕 ∑𝑛𝑛𝑥𝑥=0 𝑥𝑥!(𝑛𝑛−𝑥𝑥)! 𝑝𝑝 𝑥𝑥 𝑞𝑞 (𝑛𝑛−𝑥𝑥) = 𝑝𝑝 𝜕𝜕𝜕𝜕 (𝑝𝑝 + 𝑞𝑞)𝑛𝑛 =
𝜕𝜕𝜕𝜕 𝜕𝜕𝜕𝜕

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


𝑝𝑝𝑝𝑝(𝑝𝑝 + 𝑞𝑞)𝑛𝑛−1 = 𝑝𝑝𝑝𝑝, donde en el último paso usamos 𝑞𝑞 = (1 − 𝑝𝑝), y antes la expansión
𝑛𝑛!
(𝑎𝑎 + 𝑏𝑏)𝑛𝑛 = ∑𝑛𝑛𝑖𝑖=0 𝑖𝑖!(𝑛𝑛−𝑖𝑖)! 𝑎𝑎𝑖𝑖 𝑏𝑏 (𝑛𝑛−𝑖𝑖) . Con un método análogo obtenemos la varianza, 𝜎𝜎𝑥𝑥2 =
𝜎𝜎2 𝑛𝑛𝑛𝑛𝑛𝑛 (1−𝑝𝑝)
𝑛𝑛𝑛𝑛𝑛𝑛, así que el ruido cuadrado es 𝜂𝜂2 = 〈𝑥𝑥〉𝑥𝑥2 = 𝑛𝑛2 2 = .
𝑝𝑝 𝑛𝑛𝑛𝑛

A4.6 Distribuciones continuas

Para situaciones donde Ω es un continuo, es necesario cambiar un poco las definiciones,


ya que si la probabilidad de un número infinito de eventos base fuese finita, su suma
podría ser infinita. Como ejemplo considere la pregunta ¿cuál es la probabilidad de que
alguien mida exactamente 1.75m?. Naturalmente nos referimos a 1.75 con algún margen
de error, digamos un centímetro, no a 1.75 con infinitos ceros después, que tendría
probabilidad cero. Esto lleva a que la probabilidad que habíamos definido sea ahora
𝑃𝑃(x)dx , la probabilidad de que el resultado esté entre x y x+dx. La distribución o
densidad de probabilidad es ahora la función continua P(x) que representa lo recién
descrito, no la probabilidad de que la variable aleatoria sea exactamente x. La condición
𝑃𝑃(Ω) = ∑𝑥𝑥𝑥𝑥Ω 𝑃𝑃(𝑥𝑥) = 1 es ahora 𝑃𝑃(Ω) = ∫Ω 𝑃𝑃(𝑥𝑥)𝑑𝑑𝑑𝑑 = 1. La representación en términos
de diagramas de Venn sigue funcionando igual. El valor esperado es ahora una integral,
〈𝑓𝑓(𝑥𝑥)〉 = ∫Ω 𝑓𝑓(𝑥𝑥)𝑃𝑃(𝑥𝑥)𝑑𝑑𝑑𝑑, pero con este cambio las definiciones de los momentos quedan
igual.

Una descripción alternativa es la distribución cumulativa Ϝ(𝑦𝑦) = 𝑃𝑃(𝑥𝑥 ≤ 𝑦𝑦) (a veces


confusamente llamada también la distribución de probabilidad), la probabilidad de que el
resultado de la variable aleatoria sea menor a un valor dado. Esto tiene la ventaja
conceptual de que corresponde a una probabilidad determinada exactamente por el valor
de y, sin necesidad de un dy. En el ejemplo de la altura, esto equivale a decir que tiene
sentido preguntar cuál es la probabilidad de que alguien mida menos de 1.75m con
𝑦𝑦
infinitos ceros después. En general Ϝ(𝑦𝑦) = ∫−∞ 𝑃𝑃(𝑥𝑥)𝑑𝑑𝑑𝑑, y si Ω está acotado entre los
valores a y b, Ϝ(𝑎𝑎) = 0 𝑦𝑦 Ϝ(𝑏𝑏) = 1, aunque esto requiere correcciones si hay valores
particulares de x con probabilidad finita [1].

Dos ejemplos de distribuciones continuas de interés son la exponencial y la Gaussiana,


ilustradas en la figura 4. Como se ve en el capítulo 4, la distribución exponencial 𝑃𝑃(𝑡𝑡) =
𝜆𝜆𝑒𝑒 − 𝜆𝜆𝜆𝜆 corresponde a los tiempos entre eventos con probabilidad constante, es decir a
que si un evento ocurre con tasa 𝜆𝜆, la probabilidad de que el siguiente evento ocurra
entre el tiempo t y t+dt es 𝜆𝜆𝑒𝑒 − 𝜆𝜆𝜆𝜆 .

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


Figura 4. Distribuciones continuas A. Distribución exponencial con 𝜆𝜆 = 1. B. Distribución
Gaussiana con 𝑚𝑚 = 10 y 𝜎𝜎 = 5.

A4.7 Función generadora de momentos

Si calculamos el valor esperado de la función 𝑒𝑒 𝑧𝑧𝑧𝑧 obtenemos una función de z, 𝐺𝐺(𝑧𝑧) =


〈𝑒𝑒 𝑧𝑧𝑧𝑧 〉, llamada la función generadora de momentos. En el caso de distribuciones
continuas, esto es simplemente la transformada de Laplace de 𝑃𝑃(𝑥𝑥) ([7], ver apéndice 5),
𝐺𝐺(𝑧𝑧) = ∫ 𝑒𝑒 𝑧𝑧𝑧𝑧 𝑃𝑃(𝑥𝑥)𝑑𝑑𝑑𝑑. Para distribuciones discretas, 𝐺𝐺(𝑧𝑧) = ∑𝑥𝑥 𝑒𝑒 𝑧𝑧𝑧𝑧 𝑃𝑃(𝑥𝑥). En ambos casos,
G tiene la información completa sobre P, y en principio es posible realizar una
transformada inversa para obtener P a partir de G. Por ejemplo, para la distribución de
𝜆𝜆𝑥𝑥 𝑧𝑧 −1)
Poisson, 𝑃𝑃(𝑥𝑥) = 𝑒𝑒 − 𝜆𝜆 , 𝐺𝐺(𝑧𝑧) = 𝑒𝑒 𝜆𝜆(𝑒𝑒 .
𝑥𝑥!

Si solo nos interesan los primeros momentos de P, puede ser más simple usar las
siguientes propiedades:

𝐺𝐺(𝑧𝑧)|0 = � 𝑃𝑃(𝑥𝑥) = 1
𝑥𝑥

𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑
= � 𝑥𝑥𝑒𝑒 𝑧𝑧𝑧𝑧 𝑃𝑃(𝑥𝑥) => � = � 𝑥𝑥𝑃𝑃(𝑥𝑥) = 〈𝑥𝑥〉
𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 0
𝑥𝑥 𝑥𝑥

𝑑𝑑2 𝐺𝐺 2 𝑧𝑧𝑧𝑧
𝑑𝑑 2 𝐺𝐺
= � 𝑥𝑥 𝑒𝑒 𝑃𝑃(𝑥𝑥) => � = � 𝑥𝑥 2 𝑃𝑃(𝑥𝑥) = 〈𝑥𝑥 2 〉
𝑑𝑑𝑑𝑑 2 𝑑𝑑𝑑𝑑 2 0
𝑥𝑥 𝑥𝑥

, etc. Esto implica que simplemente a partir de derivar varias veces se puede obtener
cualquier momento de la distribución original.

Esta es solo una de varias posibles funciones que producen transformadas útiles. Por
ejemplo, si en lugar de〈𝑒𝑒 𝑧𝑧𝑧𝑧 〉 se utiliza 〈𝑒𝑒 𝑖𝑖𝑖𝑖𝑖𝑖 〉, se obtiene la función característica,
equivalente a la transformada de Fourier. En este libro usaremos la llamada función

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


generadora de probabilidad 𝐹𝐹(𝑧𝑧) = 〈𝑧𝑧 𝑛𝑛 〉 = ∑𝑛𝑛 𝑧𝑧 𝑛𝑛 𝑃𝑃(𝑛𝑛), la cual es particularmente
relevante para distribuciones discretas. Sus propiedades útiles son

𝐹𝐹(𝑧𝑧)|1 = � 𝑃𝑃(𝑛𝑛) = 1
𝑛𝑛

𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑
= � 𝑛𝑛𝑧𝑧 𝑛𝑛−1 𝑃𝑃(𝑛𝑛) => � = � 𝑛𝑛𝑃𝑃(𝑛𝑛) = 〈𝑛𝑛〉
𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑 1
𝑛𝑛 𝑛𝑛

𝑑𝑑 2 𝐹𝐹 𝑛𝑛−2
𝑑𝑑 2 𝐹𝐹
= � 𝑛𝑛(𝑛𝑛 − 1)𝑧𝑧 𝑃𝑃(𝑛𝑛) => � = � 𝑛𝑛(𝑛𝑛 − 1)𝑃𝑃(𝑛𝑛) = 〈𝑛𝑛2 〉 − 〈𝑛𝑛〉
𝑑𝑑𝑑𝑑 2 𝑑𝑑𝑑𝑑 2 1
𝑛𝑛 𝑛𝑛

y en general

𝑑𝑑 ℎ
�𝑧𝑧 � 𝐹𝐹� = 〈𝑛𝑛ℎ 〉
𝑑𝑑𝑑𝑑 1

lo cual puede ser usado para obtener los momentos. El término función generadora de
momentos se usa a veces en sentido general para referirse a cualquiera de las tres
transformadas presentadas, ya que las tres generan los momentos de la distribución.

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)


Referencias
[1] David Williams. Probability with Martingales. (Cambridge Mathematical Textbooks, 1991)

[2] Dimitri P. Bertsekas & John N. Tsitsiklis. Introduction To Probability. (Athena Scientific, 2002)

[3] Marek Capinski & Tomasz Jerzy Zastawniak. Probability Through Problems (Problem Books in
Mathematics, Springer, 2001)

[4] Sheldon M. Ross. Stochastic Processes. (John Wiley & Sons, 1996)

[5] Irving Kaplansky. Set Theory and Metric Spaces (AMS Chelsea Publishing, 2001)

[6] Richard A. Brualdi. Introductory Combinatorics (Pearson, 2009)

[7] Pierre-Simon Laplace (marquis de). Des Fonctions génératrices, Théorie analytique des
Probabilités (Courcier, Paris, 1814)

[8] Sheldon M. Ross. Applied Probability Models with Optimization. (Dover 1992)

Biología de Sistemas: de circuitos a sociedades. Juan M. Pedraza (2018)

También podría gustarte