Estadistica Descriptiva
Estadistica Descriptiva
Probabilidad
1. Introducción: Breve recorrido por la historia de la probabilidad desde sus comienzos hasta
su definición axiomática. También un comentario a la idea que hoy se tiene de la
probabilidad.
2. Espacio Muestral: Conjunto de todos los resultados posibles diferentes de un determinado
experimento aleatorio.
3. Concepto de Probabilidad: Cómo se asigna a cada suceso A su correspondiente
probabilidad P(A).
a. Concepto Frecuentista.
b. Concepto Clásico.
c. Concepto Subjetivo.
d. Definición formal de Probabilidad.
4. Propiedades Elementales: Toda probabilidad cumple una serie de propiedades, las cuales se
obtienen como consecuencia de los axionmas que debe cumplir.
5. Asignación de Probabilidad: Por las propiedades demostradas en el apartado anterior, es
suficiente conocer la probabilidad de los sucesos elementales, ya que, entonces, se podrá
determinar la de cualquier otro suceso.
6. Modelo Uniforme: Caso particular que se corresponde con una situación en la que los
sucesos elementales del espacio muestral puedan ser considerados como equiprobables.
También se estudia el análisis combinatorio.
7. Probabilidad Condicionada
8. Teoremas Fundamentales
a. Teorema de la Probabilidad Total.
b. Teorema de Bayes.
Ejemplos
1. Colinesterasa
2. N° de Hijos
3. Radiación y Cirugía
Introducción
Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población
en estudio, examinando solamente una parte de ella denominada muestra.
Este proceso, denominado Inferencia Estadística, suele venir precedido de otro, denominado
Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de
tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera
posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren
grandemente del resto, destacando hechos de posible interés, etc.
También están entre los objetivos de la Estadística Descriptiva el presentarlos de tal modo que
permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si
pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de
simetría,, normalidad, homocedasticidad, etc.
El propósito de este libro es el de dar conceptos y explicar técnicas que permitan realizar ambos
procesos, a los cuales de forma conjunto se les suele denominar Análisis de Datos.
Conceptos Fundamentales
Comenzaremos definiendo algunos conceptos propios de la terminología de la Estadística
Descriptiva.
a. Caracteres
Cada uno de los individuos de la población en estudio posee uno o varios caracteres. Así
por ejemplo, si la población en consideración es la de los estudiantes de una determinada
universidad, éstos poseén una serie de caracteres, o si se quiere características, que
permiten describirlo. Los caracteres en este ejemplo pueden ser "facultad en la que está
matriculado", "curso que sigue", "sexo", "edad", etc. Precisamente la observación de uno o
más de esos caracteres en los individuos de la muestra es lo que dará origen a los datos.
Los caracteres pueden ser de dos clases: cuantitativos, cuando son tales que su observación
en un individuo determinado proporciona un valor numérico como medida asociada, como
ocurre por ejemplo con los caracteres "edad" o "curso que sigue", y cualitativos, cuando su
observación en los individuos no suministra un número, sino la pertenencia a una clase
determinada, como por ejemplo el "sexo", o la "facultad en la que está matriculado".
Consideremos un carácter cualquiera, como por ejemplo el "gusto". Este carácter, al ser
observado en un individuo (una sustancia), puede presentar cuatro posibilidades, es decir,
es posible percibir cuatro sensaciones diferentes: dulce, amargo, salado y ácido. Pués bien,
a las posibilidades, tipos o clases que pueden presentar los caracteres las denominaremos
modalidades.
Así, al estudiar algún carácter, como por ejemplo la raza, el investigador deberá considerar
todas las posibles modalidades del carácter (todas las posibles razas), con objeto de poder
clasificar a todos los individuos que observe.
c. La matriz de datos
Así, los datos correspondientes a una investigación llevada a cabo para el estudio de una
posible contaminación radioactiva en un determinado lugar produjeron como resultado la
matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo",
"cáncer", "caída anormal del cabello" y "profesión" en los 100 individuos seleccionados en
la muestra.
d. Clases de datos
En ocasiones, con objeto de facilitar la toma de los datos, el investigador los agrupa en
intervalos. Así por ejemplo, resulta más sencillo averiguar cuantos individuos hay en una
muestra con una estatura, por ejemplo, entre 1'70 y 1'80 que medirlos a todos, en especial
si tenemos marcas en la pared cada 10 cm.
Si tenemos la opción de poder agrupar los datos en intervalos, lo primero que debemos
plantearnos (independientemente de lo que más arriba comentábamos) es la cuestión de
cuantos y cuales intervalos elegir.
Llamaremos extremos de la clase j-ésima a xj-1 y a xj, y por último, llamaremos centro o
marca de clase correspondiente al intervalo j-ésimo al punto medio del intervalo, es decir,
a cj= (xj + xj-1)/2.
A lo largo de la página consideraremos que el dato xj pertenece al intervalo j+1, j=1, ..., k-
1 , siendo el x k del k-ésimo. Hacemos notar también que el primer y último intervalo
generalmente tienen, respectivamente, el extremo inferior y superior indeterminados con
objeto de incluir observaciones poco frecuentes.
k = 1 + 3'322 log 10 n
Parece, por tanto, razonable tomar como amplitud 1'5, obteniendo como intervalos en los
que clasificar los datos
[7'5 - 9) , [9 - 10'5) , [10'5 - 12) , [12 - 13'5) , [13'5 - 15) , [15 - 16'5]
ni = n1 + n2 + ... + nk = n
fi = f1 + f2 + ... + fk = 1
La tabla formada por las distintas modalidades (valores o intervalos) del carácter X y por las
frecuencias absolutas (relativas, absolutas acumuladas o relativas acumuladas) recibe el nombre de
distribución de frecuencias absolutas (relativas, absolutas acumuladas o relativas acumuladas
respectivamente).
Tenemos, por tanto, para cada tipo de datos, cuatro distribuciones de frecuencias, obteniéndose a
partir de una cualquiera de ellas las tres restantes, supuesto que se conoce la frecuencia total.
Las cuatro distribuciones de frecuencias se expresan en tablas como siguientes dependiendo del
tipo de datos que sean:
1. Carácter cualitativo:
Mi ni fi Ni Fi
Cualidad1 n1 f1 N1 F1
Cualidad2 n2 f2 N2 F2
... ... ... ... ...
Cualidadi ni fi Ni Fi
... ... ... ... ...
Cualidadk nk fk Nk=n Fk=1
n 1
Carácter Cualitativo
Xi ni fi Ni Fi
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
... ... ... ... ...
xi ni fi Ni Fi
... ... ... ... ...
xk nk fk Nk=n Fk=1
n 1
Carácter Cuantitativo sin Agrupar
Ii ni fi Ni Fi
I1 n1 f1 N1 F1
I2 n2 f2 N2 F2
... ... ... ... ...
Ii ni fi Ni Fi
... ... ... ... ...
Ik nk fk Nk=n Fk=1
n 1
Carácter Cuantitativo Agrupado en Intervalos
Ejemplo: "Tratamiento de Radiación y Cirugía"
En un estudio sobre las razones por las que no fue completado un tratamiento de radiación seguido
de cirugía en pacientes de cáncer de cabeza y cuello se obtuvieron los datos dados por la siguiente
distribució de frecuencias absolutas,
Causas ni
Rehusaron Cirugía 26
Rehusaron Radiación 3
Empeoraron por una
10
enfermedad ajena al cáncer
Otras causas 1
40
Datos
Causas ni fi Ni Fi
Rehusaron Cirugía 26 0'650 26 0'650
Rehusaron Radiación 3 0'075 29 0'725
Empeoraron por una
10 0'250 39 0'975
enfermedad ajena al cáncer
Otras causas 1 0'025 40 1
40 1
Distribución de Frecuencias
Ejemplo: "N° de Hijos"
Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los siguientes
datos,
4
Nº de hijos(Xi) 0 1 2 3
Nº de familias(ni) 5 6 8 4 2 25
Datos
Xi ni fi Ni Fi
0 5 0'20 5 0'20
1 6 0'24 11 0'44
2 8 0'32 19 0'76
3 4 0'16 23 0'92
4 2 0'08 25 1
25 1
Distribución de Frecuencias
Ejemplo:
Los datos del de los Niveles de Colinesterasa, agrupados en los intervalos allí obtenidos,
proporcionan las cuatro siguientes distribuciones de frecuencias
Ii ni fi Ni Fi
7'5-9 3 0'088 3 0'088
9-10'5 8 0'236 11 0'324
10'5-12 10 0'294 21 0'618
12-13'5 10 0'294 31 0'912
13'5-15 1 0'029 32 0'941
15-16'5 2 0'059 34 1
34 1
Distribución de Fecuencias
Representación Gráfica de las Distribuciones
Unidimensionales de Frecuencias
La representación gráfica de una distribución de frecuencias depende del tipo de datos que la
constituya.
1. Diagrama de sectores:
Ejemplo:
Ejemplo:
Consiste en levantar, para cada valor de la variable, una barra cuya altura sea su
frecuencia absoluta o relativa, dependiendo de la distribución de frecuencias que
estemos representando.
Ejemplo:
Ejemplo:
Al igual que antes, existen también dos tipos de representaciones gráficas dependiendo de
si la distribución de frecuencias en estudio es de datos acumulados o de datos sin acumular.
1. Histograma:
Al ser esta representación una representación por áreas, hay que distinguir si los
intervalos en los que aparecen agrupados los datos son de igualamplitud o no.
Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad
(generalmente la menor) y se levantan alturas para cada intervalo de forma que la
ecuación anterior se cumpla.
Ejemplo:
Ii ni fi
0-20 8 8/70
20-30 9 9/70
30-40 12 12/70
40-45 10 10/70
45-50 9 9/70
50-60 10 10/70
60-80 8 8/70
80-100 4 4/70
?ni= 70 ?fi=1
Ejemplo:
a. Media aritmética
Llamando xl, ..., xk a los datos distintos de un carácter en estudio, o las marcas de clase de
los intervalos en los que se han agrupado dichos datos, y ni,..., nk a las correspondientes
frecuencias absolutas de dichos valores o marcas de clase, llamaremos media aritmética de
la distribución de frecuencias a
Ejemplo 1:
Ejemplo 2:
b. Mediana
La mediana es otra medida de posición, la cual se define como aquel valor de la variable tal
que, supuestos ordenados los valores de ésta en orden creciente, la mitad son menores o
iguales y la otra mitad mayores o iguales
xi ni Ni
0 3 3
1 2 5
2 2 7
7
0 0 0 1 1 2 2
entonces la mediana es
Ejemplo 1:
o Datos Agrupados
entonces, la mediana, está en el intervalo [xj-1, xj), es decir entre xj-1 y xj, tomándose
en ese caso, por razonamientos de proporcionalidad, como mediana el valor
Ejemplo:
11 < 17 < 21
c. Moda
La moda se define como aquel valor de la variable al que corresponde máxima frecuencia
(absoluta o relativa). Para calcularla, también será necesario distinguir si los datos están o
no agrupados.
Para datos sin agrupar, la determinación del valor o valores (ya que puede haber
más de uno) modales es muy sencilla. Basta observar a que valor le corresponde
una mayor ni. Ese será la moda.
4
Nº de hijos(xi) 0 1 2 3
Nº de familias(ni) 5 6 8 4 2 ?ni=25
o Datos agrupados:
Ejemplo:
Si los intervalos tuvieran distinta amplitud cj, primeros debemos normalizar las
frecuencias absolutas nj, determinando los cocientes
Ejemplo:
Ii ni li
0-20 8 0'4
20-30 9 0'9
30-40 12 1'2
40-45 10 2
45-50 9 1'8
50-60 10 1
60-80 8 0'4
80-100 4 0'2
d. Cuantiles
Los cuantiles o cuantilas son las últimas medidas de posición que veremos. De hecho
algunos autores las incluyen dentro de las medidas de dispersión al ser medidas de posición
no centrales.
El cuantil pr/k r= 1,2,..., k - 1 se define como aquel valor de la variable que divide la
distribución de frecuencias, previamente ordenada de forma creciente, en dos partes,
estando el (100·r/k)% de ésta formado por valores menores que pr/k.
Para el cálculo de los cuantiles de nuevo hay que considerar si los datos vienen o no
agrupados en intervalos.
el r-ésimo cuantil de orden k será pr/k= xj, valor al que corresponde la frecuencia
absoluta acumulada Nj.
o Datos agrupados:
< Nj
Ejemplo:
Nº de hijos(xi) 0 1 2 3 4
Nº de familias(ni) 5 6 8 4 2 ?ni=25
Nº de familias(ni) 5 11 19 23 25
Como es
y 11 < 18'75 < 19, será p3/4=2.
Ejemplo:
Como es:
21 < 23'8 < 31, el intervalo a considerar será el [12 , 13'5), siendo
Medidas de dispersión
Las medidas de posición estudiadas en la sección anterior servían para resumir la distribución de
frecuencias en un solo valor. Las medidas de dispersión, a las cuales dedicaremos esta sección,
tienen como propósito estudiar lo concentrada que está la distribución en torno a algún promedio.
Estudiaremos las cuatro medidas de dispersión más utilizadas: recorrido, varianza, desviación
típica y coeficiente de variación de Pearson, estando definidas las tres primeras medidas en
unidades concretas y estándolo la cuarta en unidades abstractas.
a. Recorrido
Si x max es el dato mayor o la última marca de clase, si es que los datos vienen agrupados en
intervalos, y x min el dato menor o primera marca de clase, llamaremos recorrido a
R = x max - x min
b. Varianza
Denotando por x1,...,xk los datos o las marcas de clase, llamaremos varianza a
Al valor
se le denomina cuasivarzanza.
c. Desviación Típica
La desviación típica sirve para medir de forma eficaz la dispersión de un conjunto de datos
entorno a su media. Desgraciadamente esta medida puede resultar engañosa cuando
tratamos de comparar la dispersión de dos conjuntos de datos. Así, si por ejemplo tenemos
dos grupos de mujeres de 11 y 25 años con medias y desviaciones típicas dadas por la tabla
siguiente:
Medidas de Asimetría
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coincidan. Claramente las distribuciones de los ejemplos de los niveles de colinesterasa y del n° de
hijos no son por tanto, simétricas.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas)
descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la
distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Aquí estudiaremos dos
de ellas.
Se define como:
Se define como
Consultó esta discrepancia en París con el famoso matemático y filósofo Pascal, quien se
interesó por los problemas que le proponía De Méré y comenzó una correspondencia
epistolar sobre cuestiones probabilísticas con otros matemáticos amigos, sobre todo con
Fermat. Esta correspondencia puede considerarse el origen de la teoría de probabilidades.
Pronto Pascal y Fermat probaron el desacuerdo de De Méré se debía a que era erróneo el
calculo de probabilidad que había hecho, ya que De Méré se había equivocado al
considerar como equiprobables casos que no le eran, y sólo cuando los casos posibles son
equiprobables tiene sentido aplicar la definición dada de probabilidad.
Otro hito es la segunda edición de la obra "The Doctrine of Chances" (La doctrina de las
probabilidades) aparecidas en 1738 y debida al hugonote francés De Moivre, que por
motivos religiosos huyó de Francia refugiándose en Inglaterra, donde vivió de la resolución
de problemas de juegos de azar. En la obra señalada aparecen las primeras indicaciones
sobre las distribución normal de probabilidades.
En 1812 Laplace publica su famosa "Theoríe Analytique des probabilités", que contiene
una exposición completa y sistemática de la teoría matemática de los juegos de azar,
además de una gran cantidad de aplicaciones de la teoría de la probabilidad a muchas
cuestiones científicas y prácticas.
Tras la obra de Laplace se extendieron las aplicaciones de su obra otras ramas de la Ciencia
durante el siglo XIX, y así, Gauss y Laplace independientemente aplicaron la teoría de la
probabilidad al análisis de los errores de medida en las observaciones físicas y
astronómicas, Maxwell, Boltzmann y Gibbs aplicaron la probabilidad en su obra
"Mecánica Estadística", que ha sido fundamental en distintas partes de la Física moderna.
Ya durante nuestro siglo las aplicaciones de la teoría de la probabilidad se han extendido
por los más variados campos, como genética, economía, psicología...
También, y pese al éxito de las aplicaciones, se oyeron voces críticas a la definición clásica
de probabilidad, que exigía "a priori" saber, o suponer, que todos los casos posibles eran
igualmente favorables. Además en ciertos casos era imposible aplicar la definición clásica
de probabilidad, como puede suceder al intentar calcular la probabilidad de que una
chincheta caiga con la punta hacia arriba, o de que un hombre de 30 años muera el próximo
año.
Si bien la matemática cambió profundamente de forma entre las dos guerras mundiales,
también es cierto que buena parte de la matemática que siguió a la Segunda Guerra
Mundial consistía en el comienzo de algo radicalmente nuevo que anunciaba una nueva
era. La teoría de conjuntos y la teoría de la medida han ido invadiendo a lo largo del siglo
XX una parte cada vez más extensa de la matemática, pero pocas de sus ramas se han visto
afectadas tan profundamente por esta tendencia como la teoría de probabilidades, a la que
Borel había dedicado ya en 1909 sus "Eléments de la théorie des probabilités".
El primer año del nuevo siglo se anunciaba ya propicio para las aplicaciones de la teoría de
probabilidades tanto a la fisica como a la genética, puesto que en 1901 publicaba Glbbs su
obra Elementary Principles in Statistical Mechanics, y el mismo año fue fundada la revista
Biometrika por Karl Pearson (1857-1936). Francis Galton (1822-1911) fue muy precoz y
un estadístico nato que estudió los fenómenos de regresión; en 1900 Pearson en la
universidad de Londres popularizó el criterio de la «chi-cuadrado». Uno de los títulos de
Poincaré había sido el de "profesor de cálculo de probabilidades", lo que indicaba un
interés creciente por el tema.
2. Probabilidad.
La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las
ingerencias que hagamos sobre la población o poblaciones en estudio se moverán dentro de
unos márgenes de error controlado, el cual será medido en términos de probabilidad.
Dado que la Estadística se utiliza con mucha frecuencia hoy en día, inclusive ya en el
lenguaje cotidiano, es conveniente saber entender con toda precisión qué es lo que se nos
dice, por ejemplo, en los medios de comunicación cuando se hace referencia a la
probabilidad de algún suceso.
Así, es corriente oír decir que la probabilidad de que un recién nacido sea varón es
aproximadamente del 50 %, que es muy poco probable que llueva en Torremolinos en la
segunda quincena del mes de julio, o inclusive, hasta podemos leer en la prensa (El País, 12
de noviembre de 1991) cosas tales como que en una evaluación internacional sobre
matemáticas y ciencias, desarrollada por la National Assessment of Educational Progress
de Estados Unidos, entre escolares españoles de 13 años, los chicos muestran un mejor
rendimiento en matemáticas que las chicas, haciendo esta afirmación con un margen de
error muy pequeño (del 5 %). Nos apresuramos a decir, claro está, que el informe no afirma
que los niños tengan una mayor aptitud o una mayor capacidad para las matemáticas, sino
que "probablemente" estos resultados son la consecuencia de unos determinados (y
erróneos) comportamientos sociales. En todo caso, el lector o lectora estará de acuerdo
conmigo en que es interesante tener muy claro qué significa el que la probabilidad de error
ante esa afirmación sea 0'05. Una respuesta completa deberá postergarse hasta el capítulo
7, en donde se describan con detalle las técnicas utilizadas en dicho informe, aunque el
concepto de probabilidad que allí se utilice será el que aquí se va a estudiar.
En este apartado trataremos de precisar que se entiende por la probabilidad de que algo
ocurra o haya ocurrido, estudiaremos también algunas de sus principales propiedades, y
daremos algunas reglas de cómo poder calcularla en determinadas situaciones.
Espacio Muestral
La Estadística, y por tanto el Cálculo de Probabilidades, se ocupan de los denominados fenómenos
o experimentos aleatorios.
A pesar de la interpretación que tiene el espacio muestral, no es más que un conjunto abstracto de
puntos (los sucesos elementales), por lo que el lenguaje, los conceptos y propiedades de la teoría
de conjuntos constituyen un contexto natural en el que desarrollar el Cálculo de Probabilidades.
Por tanto, asociado a todo experimento aleatorio existen tres conjuntos: El espacio muestral , la
clase de los sucesos, es decir, el conjunto de los elementos con incertidumbre asociados a nuestro
experimento aleatorio A, y una función real, P:A [0, l], la cual asignará a cada suceso (elemento
de A) un número entre cero y uno como medida de su incertidumbre.
Advertimos no obstante, que la elección del espacio muestral asociado a un experimento aleatorio
no tiene por qué ser única, sino que dependerá de que sucesos elementales queramos considerar
como distintos y del problema de la asignación de la probabilidad sobre esos sucesos elementales.
Ejemplo: : "Urna"
Consideremos el experimento aleatorio consistente en extraer una bola al azar de una urna
compuesta por tres bolas rojas, dos blancas y una verde.
en donde sea ω1 = bola roja, ω2= bola blanca y ω3 = bola verde, aunque también podíamos haber
considerado como espacio muestral el conjunto
en donde ωi = bola roja, i = 1,2,3, ωi = bola blanca, i= 4,5 y ω6= bola verde, haciendo las bolas
distinguibles.
Ambos pueden ser considerados espacios muéstrales del experimento descrito, eligiendo el que
más nos convenga, por ejemplo, a la hora de asignar la probabilidad a los sucesos elementales de
uno u otro espacio muestral.
Respecto a la clase de los sucesos A, es natural que ésta tenga una estructura tal que permita hablar
no solo de sucesos sino también de su unión, intersección, diferencia, complementario, etc.,
debiendo ser la clase A, en consecuencia, cerrada a dichas operaciones entre "conjuntos" (entre
sucesos). Esta es la situación del conjunto de las partes cuando es finito o inclusive numerable
(caso, por ejemplo, del espacio muestral asociado al experimento aleatorio consistente en lanzar
una moneda hasta que salga cara por primera vez). En otras ocasiones en las que sea un conjunto
continuo (por ejemplo, cuando estudiamos el tiempo que tarda un isótopo radioactiva en volverse
inestable), deberá ser A un conjunto estrictamente más pequeño que el conjunto de las partes de Ω.
En todo caso podemos pensar en A como en el conjunto que contiene todos los elementos de
interés, es decir, todos los sucesos a los que les corresponde una probabilidad.
De forma análoga, el espacio total recibe el nombre de suceso seguro al recoger dicha
denominación la idea que representa.
Por último, digamos que la inclusión de sucesos, A B, se interpreta aquí como que siempre que se
cumpla el suceso A se cumple el B; por ejemplo, siempre que salga el 2 (suceso A) sale par
(suceso B).
A = { Φ, {1}, {2}, {3}, {4}, {5}, {6}, {1,2}, {1,3}, {1,4}, {1,5}, {1,6}, {2,3}, {2,4}, {2,5}, {2,6},
{3,4}, {3,5}, {3,6}, {4,5}, {4,6}, {5,6}, {1,2,3}, {1,2,4}, {1,2,5}, {1,2,6}, {1,3,4}, {1,3,5},
{1,3,6}, {1,4,5}, {1,4,6}, {1,5,6}, {2,3,4}, {2,3,5}, {2,3,6}, {2,4,5}, {2,4,6}, {2,5,6}, {3,4,5},
{3,4,6}, {3,5,6}, {4,5,6}, {1,2,3,4}, {1,2,3,5}, {1,2,3,6}, {1,2,4,5}, {1,2,4,6}, {1.,2,5,6},
{1,3,4,5}, {1,3,4,6}, {1,3,5,6}, {1,4,5,6}, {2,3,4,5}, {2,3,4,6}, {2,3,5,6}, {2,4,5,6}, {3,4,5,6},
{1,2,3,4,5}, {1,2,3,4,6}, {1,2,3,5,6}, {1,2,4,5,6}, {1,3,4,5,6}, {2, 3, 4, 5, 6}, Ω }.
Obsérvese que este conjunto contiene los sucesos sobre los que habitualmente se tiene
incertidumbre, como por ejemplo que salga un número par, {2,4,6}, o un número mayor que
cuatro, {5,6}, o simplemente que salga un seis, {6}, y que como se ve es cerrado respecto de las
operaciones entre conjuntos.
El último elemento del espacio probabilístico es la probabilidad, que como antes dijimos está
definida sobre A, asignando a cada suceso un número entre 0 y 1. Este es el objetivo de la siguiente
sección.
Conceptos de Probabilidad
En la sección anterior vimos que a cada suceso A le corresponde su probabilidad P(A), pero, ¿este
número viene dado?, ¿es un número desconocido?, ¿lo tenemos que calcular nosotros?.
En los casos más sencillos bastará con asignar la probabilidad a los sucesos elementales de un
experimento aleatorio. La probabilidad de los demás sucesos se podrá calcular utilizando las
propiedades que más adelante veremos.
En los casos más complicados (que habitualmente se corresponderán con las situaciones reales)
asignaremos un modelo probabilístico al experimento en cuestión, como ideal que creemos
corresponde a la situación en estudio, ideal que veremos habrá que chequear inferencialmente.
Más adelante hablaremos de la asignación de probabilidades. Ahora analizamos brevemente los
conceptos que se han desarrollado a lo largo de la historia, con el propósito de formalizar las ideas
intuitivas que desde el origen del hombre siempre existieron sobre la probabilidad, aunque no
llegaran a formalizarse hasta comienzos del siglo XIX.
a. Concepto frecuentista
Así, solemos afirmar que la probabilidad de que salga un seis al tirar un dado es 1/6 porque
al hacer un gran número de tiradas su frecuencia relativa es aproximadamente esa.
b. Concepto clásico
Así, en el lanzamiento de una moneda perfecta la probabilidad de cara debe ser igual que la
de cruz y, por tanto, ambas iguales a 1/2..
De la misma manera, la probabilidad de cada uno de los seis sucesos elementales asociados
al lanzamiento de un dado debe ser 1/6.
Laplace recogió esta idea y formuló la regla clásica del cociente entre casos favorables y
casos posibles, supuestos éstos igualmente verosímiles.
c. Concepto subjetivo
Se basa en la idea de que la probabilidad que una persona da a un suceso debe depender de
su juicio y experiencia personal, pudiendo dar dos personas distintas probabilidades
diferentes a un mismo suceso.
Estas ideas pueden formalizarse, y si las opiniones de una persona satisfacen ciertas
relaciones de consistencia, puede llegarse a definir una probabilidad para los sucesos.
El principal problema a que da lugar esta definición es, como antes dijimos, que dos
personas diferentes pueden dar probabilidades diferentes a un mismo suceso.
P:A [0, 1]
tal que
Obsérvese que esta definición no dice cómo asignar las probabilidades ni siquiera a los
sucesos elementales. Solo dice que cualquier asignación que hagamos debe verificar estos
tres axiomas para que pueda llamarse Probabilidad.
1. P( ) = 0.
es
por lo que, por el axioma 3, deberá ser:
es decir,
P(A)=P(A) + P(Ai)
de donde se deduce que P(Ai)= P( ), para todo i=2,...., no debe sumar nada, es decir,
debe ser
P( ) = 0.
si Ai Aj= ,i j
P (A') = 1 - P(A)
P (A U A') = P(Ω) = 1
y
P(A) + P(A') = 1
B=A (B - A)
La propiedad enunciada se tendrá ahora como consecuencia de ser P(B - A) > 0 por el
axioma 1.
En efecto: De hecho, el que sea mayor que cero es una de las exigencias requeridas para
que sea probabilidad (axioma l).
El que sea menor que 1 se obtiene de la propiedad anterior observando que todo suceso A
está contenido en el suceso seguro, A Ω.
A = (A B) (A B') , B = (A B) (A' B)
con lo que, por la propiedad de aditividad finita antes demostrada, será
es decir,
Como, por otro lado, A U B se puede expresar como unión disjunta de la forma
A U B = (A B) U (A B') U (A' B)
su probabilidad será
y, sustituyendo los valores antes calculados para los dos últimos sumandos,
quedará
o en definitiva,
Asignación de Probabilidad
Por las propiedades demostradas en la sección anterior, es suficiente conocer la probabilidad de los
sucesos elementales, ya que, entonces, se podrá determinar la de cualquier otro suceso.
Es decir, el problema radica en asignar una probabilidad a los sucesos elementales: Asignar un
número entre 0 y 1 a cada uno de los sucesos elementales, de tal forma que su suma sea 1.
En principio, cualquier asignación que cumpla los tres axiomas mencionados en la definición de
probabilidad es válida. No obstante, el propósito del cálculo de probabilidades, como soporte de la
Estadística, es el de construir un esquema matemático que refleje de la forma más exacta posible el
fenómeno aleatorio real que estemos estudiando, por lo que la asignación de probabilidad que
elijamos debe ser lo más ajustada posible a la realidad que estamos observando.
Así, en el ejemplo del Lanzamiento de un Dado la asignación razonable será la de
En otras ocasiones, la observación del mismo fenómeno en otra población semejante a la que
estamos estudiando, o inclusive en la objeto de estudio en un tiempo anterior, permitirá obtener
una distribución de frecuencias a partir de la cual asignar una probabilidad.
Ejemplo:
Un estudio sobre el color de los ojos en niños recién nacidos de una población determinada
dio la siguiente distribución de frecuencias relativas:
Color fi
Azules 0'05
Verdes 0'02
Castaños 0'69
Negros 0'24
Supuesto que no consideremos la componente genética que esta característica tiene, no teniendo en
cuenta el color de ojos de los padres, podríamos considerar esta distribución de frecuencias como
una buena aproximación de la probabilidad y decir, por ejemplo, que la probabilidad que tiene un
recién nacido de esta población de tener los ojos claros es
en donde era ωi = bola roja, i = 1,2,3, ωi = bola blanca, i = 4,5 y ω6 = bola verde, los seis sucesos
elementales pueden ser considerados como equiprobables, siendo en ese caso, P(ωi) = 1/6,
mientras que si consideramos como espacio muestral
en donde era ω1 = bola roja, ω2 = bola blanca y ω3 = bola verde, los sucesos dejan ya de ser
equiprobables, por lo que, en una situación más compleja, la elección de un espacio muestral en
donde los sucesos elementales sean equiprobables puede ser más adecuada.
Aquí, por las propiedades estudiadas en la sección anterior, es equivalente utilizar Ω2 con sucesos
elementales equiprobables, que utilizar Ω1 con P(ω1) = 3/6, P(ω2) = 2/6 y P(ω3) = 1/6.
Sin embargo, la mayoría de los fenómenos aleatorios que se observan en la naturaleza admiten un
esquema tan sencillo, ni será necesario detallar esta asignación en los sucesos elementales en la
mayoría de las situaciones reales. Se podrá actuar en una forma más encapsulada, asignando de
forma global un modelo probabilístico a la característica que estemos estudiando, el cual recibe el
nombre de Distribución de Probabilidad. No obstante, en esa modelización global que hagamos de
la realidad, siempre será posible descender hasta la probabilidad que tiene asociada.
La asignación que hagamos, tanto en un nivel elemental como en forma de distribución modelo,
podrá ser contrastada con las observaciones que hagamos de nuestro experimento aleatorio, de
forma que podamos estar razonablemente seguros de nuestras conclusiones.
Dentro de las posibles asignaciones de probabilidad existe una que destaca, tanto por ser una de las
más utilizadas como por obtenerse de ella interesantes propiedades. Se trata del denominado
Modelo Uniforme.
Modelo Uniforme
En esta sección estudiaremos un caso particular muy importante, el cual se corresponde con una
situación en la que los sucesos elementales del espacio muestral puedan ser considerados como
equiprobables.
Ejemplo:
Ejemplo:
Si seleccionamos al azar una carta de una baraja española, los cuarenta sucesos elementales
correspondientes a las cuarenta cartas, pueden ser considerados como equiprobables,
estando de nuevo ante un esquema de modelo uniforme.
Ejemplo:
Ejemplo:
Consideremos el experimento aleatorio consistente en lanzar al aire una moneda dos veces.
El espacio muestral que razonablemente vendrá asociado será, = {(C, C), (C, X), (X, X)},
siendo C y X, respectivamente, la cara y la cruz de la moneda.
En este espacio muestral los sucesos no son equiprobables, aunque puede conseguirse esta
simetría si consideramos como espacio muestral = {(C, C), (C, X), (X, C), (X, X)}.
En todos estos casos de modelos uniformes, en especial en los que el espacio muestral es finito,
Ω={ ω1, ω2,..., ωn} el cálculo de las probabilidades de los sucesos resulta sencillo, ya que al ser los
sucesos elementales incompatibles y equiprobables, será
No obstante, dicho cómputo no resulta siempre fácil por lo que es conveniente tener presente las
fórmulas de las variaciones, combinaciones y permutaciones, ya que éstas facilitarán el cálculo.
V N , n = N · (N - 1) · ... · (N - n +1)
VR N , n = N n
Permutaciones de N elementos
PN = N! = N · (N - 1) · ... · 2 · 1
Permutaciones con repetición de N elementos, uno de los cuales se repite n1 veces, otro
n2 veces, ..., otro nr veces
Ejemplo:
Por ejemplo, la extracción de una bola de una urna con tres bolas blancas y dos negras,
puede formalizarse con un espacio probabilístico en el que los sucesos elementales sean las
cinco bolas y donde la probabilidad sea uniforme sobre estos cinco sucesos elementales, es
decir, igual a 1/5.
Las propiedades vistas en el capítulo anterior para las distribuciones (le frecuencias
condicionadas llevan a la siguiente definición.
Definición:
por lo que tenemos una expresión más para calcular la probabilidad condicionada
b. Independencia de sucesos
P(A/B) = P(A).
Definición:
P( A B ) = P(A) · P(B)
An = Ω y Ai Aj = para todo i j.
Resultado que se puede parafrasear diciendo que la probabilidad de un suceso que se puede
dar de varias formas es igual a la suma de los productos de las probabilidades de éste en
cada una de esas formas, P(B/An), por las probabilidades de que se den estas formas, P(An).
Ejemplo
Una población está formada por tres grupos étnicos: A (un 30%), B (un 10%) y C (un
6O%). Además se sabe que el porcentaje de personas con ojos claros en cada una de
estas poblaciones es, respectivamente, del 20%, 40% y 5%. Por el teorema de la
probabilidad total, la probabilidad de que un individuo elegido al azar de esta
población tenga ojos claros es:
P(ojos claros) = P(A) ·P(ojos claros/A) + P(B) · P(ojos claros/B) + P(C) · P(0jos claros/C
) = 0'3 · 0'2 + 0'1 · 0'4 + 0'6 · 0'05 = 0'13.
Teorema de Bayes
El siguiente teorema es un resultado con una gran carga filosófica detrás, el cual mide el
cambio que se va produciendo en las probabilidades de los sucesos a medida que vamos
haciendo observaciones. Paradógicamente a su importancia, su demostración no es más que
la aplicación de la definición de probabilidad condicionada seguida de la aplicación del
teorema de la probabilidad total.
Teorema
Este teorema tiene una interpretación intuitiva muy interesante. Si las cosas que pueden
ocurrir las tenemos clasificadas en los sucesos Ai de los cuales conocemos sus
probabilidaes P(Ai), denominadas a priori, y se observa un suceso B, la fórmula de Bayes
nos da las probabilidades a posteriori de los sucesos A<SUB<I< sub>, ajustadas o
modificadas por B.
Ejemplo
Supongamos que tenemos una urna delante de nosotros de la cual solo conocemos que
o es la urna A1 con 3 bolas blancas y 1 negra, o es la urna A2 con 3 bolas negras y 1
blanca.
Con objeto de obtener más información acerca de cual urna tenemos delante, realizamos un
experimento consistente en extraer una bola de la urna desconocida. Si suponemos que la
bola extraida resultó blanca 1B y a priori ninguna de las dos urnas es más verosímil que la
otra, P(A1) = P(A2) = 1/2, entonces la fórmula de Bayes nos dice que las probabilidades a
posteriori de cada urna son
habiendo alterado de esta forma nuestra creencia sobre la urna que tenemos delante: Antes
creíamos que eran equiprobables y ahora creemos que es tres veces más probable que la
urna desconocida sea la A1.
Si suponemos que la bola no fue reemplazada (se deja para el lector el caso de
reemplazamiento), y sale una bola negra 2N, la fórmula de Bayes nos devolverí a la
incertidumbre inicial, ya que sería
Si hubiera salido blanca, la fórmula de Bayes, al igual que la lógica, también sería
concluyente,
P(A1/2B) =1 y P(A2/2B) =0
Ejemplo 1
"Niveles de Colinesterasa"
Aplicando la fórmula de Sturges para el cálculo del numero de intervalos en que se dividen las
observaciones obtenemos:
es decir, una sugerencia de 6 intervalos. Como el mayor valor es x(34) = 16'5 y el menor x(1) = 7'8,
la longitud sugerida es
Parece, por tanto, razonable tomar como amplitud 1'5, obteniendo como intervalos en los que
clasificar los datos
[7'5 - 9) , [9 - 10'5) , [10'5 - 12) , [12 - 13'5) , [13'5 - 15) , [15 - 16'5]
Los datos agrupados en los intervalos obtenidos, proporcionan las cuatro siguientes distribuciones
de frecuencias:
Ii ni fi Ni Fi
7'5-9 3 0'088 3 0'088
9-10'5 8 0'236 11 0'324
10'5-12 10 0'294 21 0'618
12-13'5 10 0'294 31 0'912
13'5-15 1 0'029 32 0'941
15-16'5 2 0'059 34 1
34 1
Distribución de Frecuencias
11 < 17 < 21
Vamos a determinar la séptima decila, para ello volvemos a necesitar las Frecuencias
Acumuladas:
Como es:
21 < 23'8 < 31, el intervalo a considerar será el [12 , 13'5), siendo
El Recorrido es:
R = 15'75 - 8'25 = 7'5
La varianza en este ejemplo será:
Ejemplo 2
"Número de Hijos"
Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los siguientes
datos,
4
Nº de hijos(Xi) 0 1 2 3
Nº de familias(ni) 5 6 8 4 2 25
Tabla de Datos
Xi ni fi Ni Fi
0 5 0'20 5 0'20
1 6 0'24 11 0'44
2 8 0'32 19 0'76
3 4 0'16 23 0'92
4 2 0'08 25 1
25 1
Distribución de Frecuencias
Para el cálculo de la Mediananos hace falta la distribución de frecuencias acumuladas que era
Nº de hijos(xi) 0 1 2 3 4
Frecuencias Acumuladas(Ni) 5 11 19 23 25
y como es n/2=12'5 y en consecuencia
Para el cálculo de la Moda la simple inspección de la tabla siguiente proporciona como valor Md =
2.
4
Nº de hijos(xi) 0 1 2 3
Nº de familias(ni) 5 6 8 4 2 Σni=25
4
Nº de hijos(xi) 0 1 2 3
Nº de familias(ni) 5 6 8 4 2 Σni=25
Como es
El Recorrido será R = 4 - 0 = 4.
La Varianza es:
Ejemplo 3
"Radiación y Cirugía"
En un estudio sobre las razones por las que no fue completado un tratamiento de radiación seguido
de cirugía en pacientes de cáncer de cabeza y cuello se obtuvieron los datos dados por la siguiente
distribució de frecuencias absolutas,
Causas ni
Rehusaron Cirugía 26
Rehusaron Radiación 3
Empeoraron por una
10
enfermedad ajena al cáncer
Otras causas 1
40
Datos
Causas ni fi Ni Fi
Rehusaron Cirugía 26 0'650 26 0'650
Rehusaron Radiación 3 0'075 29 0'725
Empeoraron por una
10 0'250 39 0'975
enfermedad ajena al cáncer
Otras causas 1 0'025 40 1
40 1
Distribución de Frecuencias
http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/ejemplo3.html