3.
PROBABILIDAD
La probabilidad son los todos los resultados posibles de un evento. La variable aleatoria depende del azar, es
decir, es incierta, pero se puede cuantificar, es decir, proporcionar una descripción cuantitativa de lo que es
más posible que ocurra. La probabilidad fue el origen de la estadística.
Existen muchas aproximaciones para calcular la probabilidad:
- Subjetiva: el grado de creencia personal de que un evento ocurra.
- Frecuentista: la proporción de veces que un evento ocurra tras múltiples repeticiones. E.g. La
probabilidad de que al tirar una moneda salga cara es 1 de 2, lo cual no quiere decir que si tiramos la
moneda 6 veces, 3 de éstas salga cara y 3 salga cruz. Es posible que nunca te salga cara, lo cual no quiere
decir que si lo repites 1,000 nunca te salga cara, de hecho, lo más probable es que la probabilidad sea de
0,5 (1 de 2).
- A priori: conocimiento previo que nos permite hacer predicciones fiables. E.g. La teoría de la genética
permite conocer la probabilidad de que aparezca un carácter u otro si se obtiene la información suficiente
de los progenitores.
LEY DE LAPLACE —> la fórmula para calcular la probabilidad. La probabilidad de un evento A se
obtiene dividiendo el número eventos favorables a A entre el número total de posibles resultados.
La probabilidad se expresa en una escala entre 0 y 1. Nunca se podrá tener una probabilidad mayor a 1. 1
significa un evento 100% seguro, mientras que 0 significa un evento imposible. E.g. La probabilidad de que al
tirar una moneda te salga cara o cruz es de 1 (siempre saldrá una u otra). La probabilidad de que al tirar una
moneda no te salga ni cara ni cruz es de 0 (siempre saldrá una u otra). La probabilidad de que al tirar una
moneda te salga cara es de 0,5. Los eventos que estén cerca de 0 (>0,5) son eventos raros. Los eventos que
están cerca de 1 (<0,5) son eventos comunes.
ESPACIO MOSTRAL (Sample Space) —> todos los eventos posibles de una variable. E.g. si
lanzamos un dado, el espacio mostral es 1,2,3,4,5,6 (Ω={1,2,3,4,5,6}). Si lanzamos una moneda 2 veces, el
espacio mostral es cara-cara, cara-cruz, cruz-cara, cruz-cruz (Ω={hh, ht, th, tt}).
Para calcular la probabilidad de que no pase un evento A (Ã = no A), se resta la probabilidad de que pase A a
1. La fórmula es p(Ã) = 1-p(A). E.g. La probabilidad de que no salga 4 al tirar un dado es de 1 - 1/6 o 1-
0,17 = 0,83 o 5/6 (altamente probable).
3.1. OPERACIONES ENTRE SUCESOS
• REGLA DE ADICIÓN: suma de probabilidades, aquellos eventos que son mutuamente exclusivos. E.g. si
te sale cara, no te sale cruz. La probabilidad de que suceda A o B es la suma de la probabilidad de A más la
probabilidad de B. Para calcular la probabilidad de A o B se suma la p(A) + la p(B) —> P(AUB) =
p(A) + p(B). Eg. En una clínica dental en particular, la probabilidad de que vaya un cliente con todos los
dientes es de 0,67 (p=0,67), un cliente con algunos dientes es de 0,24 (p=0,24) y sin ningún diente es de
0,09 (p=0,09). Con lo cual, la probabilidad de que venga algún paciente con algún diente será la suma de
0,67 + 0,24 = 0,91.
Eg. La probabilidad de que al tirar un dado salga 3 o 4, es la probabilidad de que salga 3 (p=0,17) más la
probabilidad de que salga 4 (p=0,17) —> 0,17 + 0,17 = 0,34.
• REGLA DE MULTIPLICACIÓN: aquellos eventos que son independientes entre sí, es decir, la
ocurrencia de un evento no es contingente con el otro. En este caso, la probabilidad de que ambos eventos
ocurran simultáneamente es igual al producto de sus probabilidades. Para calcular la probabilidad de A
y B se multiplica la pA x la pB —> P(AandB) = p(A) x p(B).
Eg. Si hay dos pacientes en la sala de espera de la clínica dental, la probabilidad de que ambos tengan todos
los dientes es 0,67x0,67 = 0,45.
Eg. La probabilidad de que dos hij@s sean del mismo sexo —> Espacio mostral: Ω={MM, MW, WM,
WW}. El evento favorable es {MM, WW}, con lo cual p = 2/4 = 0,5
Eg. La probabilidad de que al tirar una moneda 3 veces, cual es la
probabilidad de que solo salga cara una única vez —> Espacio
mostral: Ω={HHH, HHC, HCC, HCH, CCC, CCH, CHH,
CHC}. El evento favorable es {HCC, CCH, CHC}, con lo cual p
= 3/8 = 0,375. Para visualizarlo es útil representarlo en un
gráfico de árbol. Con el gráfico de árbol, se pueden tomar dos
caminos: o bien sumar todas las probabilidades favorables (3)
divididas por todas las probabilidades posibles (8, el espacio mostral).
O bien, multiplicar cada probabilidad favorable entre ellas como en el ejemplo siguiente.
Eg. Cuál es la probabilidad de que al tirar la moneda 3 veces, en
todas las veces salga cara.
p(1)=1/2 , p(2)=1/2 , p(3)=1/2 —> 1/2 x 1/2 x 1/2 = 1/8 =
0,125
PROBABILIDAD CONDICIONAL —> La probabilidad de que pase algo sabiendo que
previamente ha salido algo.
Eg. Un concurso de TV dispone de 20 coches para premiar al
concursante, 10 son Seat Arona (2 rojos y 8 azules) y 10 son Seat León (7
rojos y 3 azules). El concursante escoge un número entre 1 y 20 y debe acertar el modelo y color de coche
para ganar.
Cuando el jugador escoge un número al azar el coche puede ser rojo (9) o azul (11). Si el coche es rojo, puede
ser que sea León (7) o Arona (2), del mismo modo que si el coche el azul, puede ser León (3) o Arona (8). Las
probabilidades condicionales son aquellas ramas (aquellas probabilidades) que salen una vez se sabe si
el coche es rojo o azul.
Eg. La probabilidad de que sea Arona rojo es de —
> Dos caminos:
A) de los 20 coches 2 son Arona rojos —> 2/20 =
0,1
B) De los 20 coches 9 son rojos (9/20) y de estos 9,
2 son Arona (2/9) —> 9/20 x 2/9 = 18/180 =
0,1
3.2. DISTRIBUCIÓN DE PROBABILIDADES
• Variable Aleatoria: asocia un número real con cada resultado de un experimento aleatorio. Pueden ser
discretas, es decir, solo hay un numero concreto de resultados (eg. Cara o cruz, 6 caras del dado, etc.). O
pueden ser continuas, es decir, existen valores infinitos dentro de su intervalo (eg. Altura o peso).
• Función de Distribución La función de distribución de una variable aleatoria X es una función teórica
que asigna, para cada punto, la probabilidad acumulada hasta dicho valor. Es decir, F(X) = p(X<x).
- Distribución Binomial: para distribuir probabilidades discretas.
- Distribución Normal: para distribuir probabilidades continuas.
3.2.1. DISTRIBUCIÓN DISCRETA
- Frecuencia Absoluta (FA) = Número de individuos en cada intervalo.
- Frecuencia Relativa (FR) = Número de individuos de un intervalo dividido por el total.
- Frecuencia Relativa Acumulada (FAcum) = FR de cada intervalo sumado con la FR de los
intervalos anteriores.
Eg. Una familia tiene 2 hijos. La distribución de probabilidades de la
variable X (que ambos hijos sean varones) es la siguiente:
Espacio Mostral: Ω={BB, BG, GB, GG} = 1/4.
- La probabilidad de que ambos sean varones es p(X=2) =
p(BB)=1/4.
- La probabilidad de que solo uno sea varón es la
suma de las dos variables en que solo un hijo es
varón, es decir, p(X=1) = p(BG) + p(X=1) = p(GB)
= 1/4 + 1/4 = 2/8 = 1/2
- La probabilidad de que ninguno sea varón es
p(X=0) = p(GG) =1/4
Eg. Al tirar un dado 240 veces aparecen estos resultados. Sin embargo, estos resultados no se pueden
extrapolar a otro suceso. Si tiramos el dado un infinito número de veces todas las caras tienen la misma
probabilidad de salir, por ello la distribución teórica de probabilidades es la siguiente. Esta es la diferencia
entre una Distribución Empírica a una Distribución Teórica, ya que las probabilidades discretas son
controladas.
3.2.1. DISTRIBUCIÓN CONTINUA
En cambio, en la distribución de variables continuas podemos ajustar los valores a una curva teórica que
tenga el mismo comportamiento que los datos empíricos. La curva teórica tiene la característica de que a
pesar de ser teórica, puede mostrar los valores experimentales de una variable continua. Los resultados de un
experimento son extrapolables a cualquier otro experimento —> Distribución Normal o Gausiana:
- Es unimodal, es decir, solo tiene una moda, por ello tiene forma de campana.
- Es simétrica con respecto a la media.
- Está descrita por los parámetros media (µ) y variancia (σ).
- La campana se desplaza hacia la derecha si se incrementa la media
manteniendo la variancia. Si se mantiene la media, pero se incrementa la
varianza, la campana se achata. En cambio si se disminuye la varianza, la
campana se vuelve más puntiaguda.
- La media y mediana son iguales.
- Se representa como DN (distribución normal) o N (media, variancia).
- La probabilidad de que cualquier valor (X1) de una variable aleatoria X es de 0,6826.
Eg. Un estudio de 100 elementos llegó a la conclusión de la FC media es de 50 lpm, con una SD de 10lpm.
La probabilidad de encontrar un individuo dentro de la SD es de de 0,68, es decir, la probabilidad de
encontrar un individuo entre 60 y 40lpm es del 68%.
Si queremos calcular la probabilidad de de encontrar un individuo en una distancia de 2 SD en lugar de 1,
esta probabilidad es de 0,9544. Es decir, la probabilidad de encontrar un individuo entre 70 y 30 lpm es de
95%.
Si queremos calcular la probabilidad de encontrar un individuo en una distancia de 2,5 SD en lugar de 2,
esta probabilidad es de 0,9972. Es decir, la probabilidad de encontrar a un individuo entre 75 y 25 lpm es del
99%, prácticamente la totalidad.
Estos valores (0,68, 0,95 y 0,99) se mantienen en cualquier experimento de distribuciones
continuas.
• DISTRIBUCIÓN NORMAL STANDARD (SND) es aquella que tiene una µ=0 y una σ=1. Como en
las variables continuas cualquier valor es posible, al contrario de las discretas, podemos calcular por
ejemplo cuál es la probabilidad de encontrar a alguien con un peso de 70,123456kg a través de la SND.
Eg. Queremos saber la probabilidad de que haya un individuo en clase con un peso de 120kg (Xi).
Zi = la probabilidad de que haya la variable Xi
Xi = 120kg
µ = 70kg
σ = 10kg
Zi = Xi - µ/σ —> 120 - 70 / 10 = 5.
El valor 5 no está en la tabla de Zs, ya que el valor mayor es 3,4, en este caso cogemos el valor mayor de la
tabla (3,4). Para el valor 3,4 , la probabilidad es de 0,9997. Con lo cual, la probabilidad de que haya un
alumno en clase que pese 120kg es de 0,9997 (99%).
Eg. Tenemos una muestra de 12 elementos de los cuales se han calculado el peso. La mu es de 76,5 y la SD es
de 8,9.
- La probabilidad de encontrar un paciente de 83kg (el paciente 1) es de 0,730 —> Zi = Xi - mu/SD =
83-76,5/8,9 = 0,73 —> Tabla de Z = 0,7673 (77%)
- La probabilidad de encontrar un paciente de 76kg (el paciente 2 y el paciente 6) es de -0,056 —> Zi = Xi
- mu/SD = 76-76,5/8,9 = -0,056 —> Tabla de Z = 0,5199 (52%)
- La probabilidad de encontrar un paciente de 88kg (el paciente 3) es de 1,291 —> Zi = Xi - mu/SD =
88-76,5/8,9 = 1,291—> Tabla de Z = 0,9015 (90%)
- La probabilidad de encontrar un paciente de 78kg (el paciente 4) es de 0,168 —> Zi = Xi - mu/SD =
78-76,5/8,9 = 0,168 —> Tabla de Z = 0,5636 (56%)
- La probabilidad de encontrar un paciente de 71kg (el paciente 5) es de -0,617 —> Zi = Xi - mu/SD =
71-76,5/8,9 = -0,617 —> Tabla de Z = 0,7291 (73%)
- La probabilidad de encontrar un paciente de 79kg (el paciente 7) es de 0,281 —> Zi = Xi - mu/SD =
79-76,5/8,9 = 0,281 —> Tabla de Z = 0,6103 (61%)
- La probabilidad de encontrar un paciente de 75kg (el paciente 8) es de -0,168 —> Zi = Xi - mu/SD =
75-76,5/8,9 = -0,168 —> Tabla de Z = 0,5636 (56%)
- La probabilidad de encontrar un paciente de 85kg (el paciente 9) es de 0,954 —> Zi = Xi - mu/SD =
85-76,5/8,9 = 0,954 —> Tabla de Z = 0,8289 (83%)
- La probabilidad de encontrar un paciente de 73kg (el paciente 10) es de -0,393 —> Zi = Xi - mu/SD =
73-76,5/8,9 = -0,393 —> Tabla de Z = 0,6517 (65%)
- La probabilidad de encontrar un paciente de 81kg (el paciente 11) es de 0,505 —> Zi = Xi - mu/SD =
81-76,5/8,9 = 0,505 —> Tabla de Z = 0,6915 (69%)
- La probabilidad de encontrar un paciente de 53kg (el paciente 12) es de 0,730 —> Zi = Xi - mu/SD =
53-76,5/8,9 = -2,638 —> Tabla de Z = 0,9957 (99%)
• PROBABILIDAD ACUMULADA: no se trata de la probabilidad de un valor particular, como en la
SND, se trata de la probabilidad acumulada hasta cierto valor.
Eg. En una población en la que µ=5,2 y la σ =1,3.
- Queremos saber cuál es la probabilidad de tener un valor menor a 9 (no la probabilidad de tener el valor
9, sino la probabilidad de tener un valor <9).
N(5,2)(1,3)
Xi (9)
Zi = Xi - µ/σ = 9-5,2/1,3 = 2,92 —> Tabla de Zs 2,92 = 0,9982 (99%)
La tabla de Z solo nos da la posibilidad de calcular probabilidades de valores que están por debajo de un
cierto valor. Qué ocurre si queremos calcular la probabilidad que está por encima de ese valor?
- Queremos saber la probabilidad de tener un valor mayor a 9. Si la
probabilidad de que salga un valor <9 es de 0,9982, la probabilidad
de que slaga un valor >9 es de 0,0018 —> p(Z>Zi) = 1 - p(Z<Z1)
= 1 - 09982 = 0,0018
- Qué pasa cuando Z tiene un valor negativo? Como la Distribución
Gausiana es simétrica a la media, la probabilidad de encontrar valor
de Z1 negativo es la misma que la probabilidad de encontrar el
mismo valor de Zi en positivo.
Eg. El tamaño de los recién nacidos en Cataluña sigue una DN con mu=50cm y SD=1,5cm —> N(50)(1,5).
- Cuál es la probabilidad de encontrar a un recién nacido por debajo de 52,5cm?
Zi = Xi - µ/σ = 52,5-50/1,5 = 1,67 —> Tabla de Z = 0,9525 (95,25%).
- Cuál es la probabilidad de encontrar un recién nacido por encima de 52,5cm?
1-0,9525 = 0,0475 (4,75%)
- Qué pasa con la probabilidad de que salga un valor entre 2 valores? Eg. La probabilidad de que nazca un
bebé entre los 50,5 y 52,5?
Zi = 1,67 (ya lo hemos calculado en el 1r punto)
Zo = Xo - µ/σ = 50,5-50/1,5 = 0,33 —> Tabla de Z = 0,6293
Si Zi=1,67 y Zo=0,33, entonces Zp=Zi-Zo —> Zp = 1,67-0,33 —> 0,9525 - 0,6293 = 0,3232 (32%).
RESUMEN:
• Para una variable aleatoria continua X hay infinitas distribuciones normales N (μ, σ) pero estamos
especialmente interesados en la distribución normal estándar N (0,1) porque permite una estimación
rápida de las probabilidades asociadas a Xi mediante una tabla Valor de Zi: 𝑍i︎ = Xi︎ - μ /𝜎
• La función de distribución de probabilidad de una variable aleatoria continua X es la expresión teórica que
asocia a cada valor individual de Xi, la probabilidad acumulada de tener valores menores o iguales a este
valor: p (Z ≤ Zi) = p
• En los artículos científicos encontrarás la expresión p o "valor p" o nivel de significación (α).
• La suma de todas estas probabilidades es 1.
3.2.3. OTRAS DISTRIBUCIONES ASOCIADAS A LA DISTRIBUCIÓN NORMAL
Cuando queremos hacer inferencia estadística hemos visto que la distribución normal aparece de manera
casi inevitable. A menudo no es una variable aleatoria la que sigue estas distribuciones, sino estadígrafos
derivados de estas variables. Dependiendo del problema, podemos encontrar otras distribuciones, tales como:
T-Student, Khi Cuadrado, F-Snedecor. Todas ellas son distribuciones que salen de operar con
distribuciones normales (probabilidades continuas). Sobretodo nos interesa saber qué valores de estas
distribuciones son atípicos.
• DISTRIBUCIÓN T-STUDENT —> es útil para calcular intervalos
de confianza y tests de hipótesis comparando una o dos medias. La
función de densidad tiene una forma similar a la DN, pero con una mayor
dispersión, es decir, con colas más largas. Se caracteriza por un solo
parámetro denominado grados de libertad. Cuando los grados de
libertad aumentan (está muy ligado al tamaño de la muestra), más se acerca
a una N(0,1), es decir, a una DNS. Es simétrica con respecto a 0, con lo cual se consideran valores
anómalos aquellos que se alejan de 0, ya sean positivos o negativos.
• DISTRIBUCIÓN KHI CUADRADO —> es útil para analizar datos
categóricos. La función de densidad es asimétrica. Solo tienen
densidad los valores positivos. Se caracteriza por un solo parámetro
denominado grados de libertad. La función de densidad se hace más
simétrica conforme aumentan el número de grados de libertad.
Normalmente consideramos anómalos los valores de la cola de la derecha.
• DISTRIBUCIÓN F-SNEDECOR —> es útil para comparar dos
variantes o más de dos medias utilizando el ANOVA. La función de
densidad es asimétrica, solo toma valores positivos. Viene definida
por el ratio de dos varianzas. Se caracteriza por dos parámetros, los
grados de libertad y las dos muestras que se comparan.
Normalmente, se consideran valores anómalos los de la cola de la derecha.
3.2.4. OTRAS DISTRIBUCIONES ASOCIADAS A LA DISTRIBUCIÓN
DISCRETA.
• DISTRIBUCIÓN DE BERNOULLI —> Tenemos un experimento de Bernoulli si es realizar el
experimento tenemos solo dos posibles resultados:
- X = 1 (éxito, con probabilidad p)
- X = 0 (fracaso, con probabilidad q = 1-p)
Eg. Tirar una moneda y que slaga cara —> p=1/2 y q=1/2
Eg. Escoger una persona de la población y que esté enferma de una determinada patología —> p = 1/1000
y q = 999/1000
Eg. Aplicar un tratamiento a un enfermo y que se cure —> p = 95/100 (95%) y q = 5/100 (5%)
En experimentos donde el resultado es dicotómico la variable queda perfectamente determinada conociendo
el parámetro p.
Eg. Se ha observado que de 2000 accidentes de tráfico con impacto frontal donde los conductores no tenían
cinturón, 300 individuos quedaron con secuelas —> La noción frecuentaste de probabilidad nos permite
aproximar la probabilidad de tener secuelas mediante 300/2000 = 0,15 = 15%.
X = “tener secuelas después de un accidente sin cinturón” es la variable de Bernoulli.
X = 1 tiene probabilidad de p ≈ 0,15
X = 0 tiene probabilidad de q ≈ 0,85
Eg. Se ha observado que de 2000 accidentes de tráfico con impacto frontal donde los conductores sí tenían
cinturón de seguridad, 10 individuos quedaron con secuelas —> la noción frecuentista de probabilidad nos
permite aproximar la probabilidad de tener secuelas mediante 10/2000 = 0,005 = 0,5%.
X = “tener secuelas después de un accidente con cinturón” es variable de Bernoulli
X = 1 tiene probabilidad de p ≈ 0,005
X = 0 tiene probabilidad q ≈ 0,995
• DISTRIBUCIÓN BINOMINAL —> útil para hacer inferencias de proporciones. Si n se repite un
número de veces en un experimento de Bernoulli con parámetro p, el número de éxitos sigue una
distribución binominal de parámetros (n, p). Los dos parámetros que describen la distribución Binominal
son:
- El número de elementos de la muestra (n)
- La verdadera probabilidad de tener éxito con cada elemento (p)
Eg. Lanzar una moneda 10 veces y contar las veces que sale cara —> Bin (n=10, p = 1/2).
Eg. Lanzar una moneda 100 veces y contar las caras —> Bin (n=100, p=1/2) —> es difícil de calcular, por
ellos el modelo Normal es más adecuado.
Eg. El número de personas que enfermerán en una población de 500.000 habitantes de una enfermedad que
desarrolla 1 de cada 2000 personas —> Bin (n = 500.000, p = 1/2000) —> es difícil de calcular, por ello el
modelo Poisson es más adecuado.
La media de la distribución Binominal, es decir, el valor esperado si observamos n individuos o repetimos el
ensayo n veces, es np.
La varianza de la distribución Binominal es np(1-p)
Se aproxima a la DN cuando np o np(1-p) > 5
• DISTRIBUCIÓN DE POISSON —> también denominada distribución de sucesos raros. Se obtiene
como una aproximación de una distribución binominal con la misma media para “n grande” (n>30) y
“p pequeña” (p<0,1). Se representa por un único parámetro (λ) que representa simultáneamente a
la media y a la varianza, es decir, la media es igual a la varianza. Si se desconoce el valor de λ, se puede
calcular a partir de n x p. Si la media es pequeña la función de densidad es asimétrica positiva, pero se
vuelve cada vez más simétrica conforme la media aumenta y se aproxima a la DN.
Eg. La probabilidad de que al administrar una vacuna se produzca una reacción adversa determinada es de
0,001. Cuál es la probabilidad de que se produzca una RA al vacunar a 2000 personas?
Λ = np = 2000 x 0,001 = 2 —> A partir de la distribución de Possion (recogida en tablas) sabemos que este
valor de λ = 2, le corresponde una probabilidad de 0,2706.
Eg. El número de individuos que será atendido un día cualquiera en el servicio de urgencias del hospital X.
En Barcelona hay 1.500.000 habitantes (n es grande). La probabilidad (p) de que cualquier persona tenga un
accidente es pequeña, pero no nula. Supongamos que es 1/10.000 —> Bin (n = 1.500.000, p = 1/10.000) ≈
Poisson (λ =n x p = 1.500.000 x 1/10.000 = 150).