0% encontró este documento útil (0 votos)
89 vistas12 páginas

Estadística

El documento habla sobre variables aleatorias y probabilidades. Explica que las variables aleatorias están asociadas con conceptos de azar e incertidumbre y que la probabilidad provee una medida del grado de incertidumbre sobre el valor que puede asumir una variable aleatoria. También define conceptos como espacio muestral, puntos muestrales, eventos aleatorios y cómo las variables aleatorias pueden ser discretas o continuas dependiendo del tipo de espacio muestral subyacente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
89 vistas12 páginas

Estadística

El documento habla sobre variables aleatorias y probabilidades. Explica que las variables aleatorias están asociadas con conceptos de azar e incertidumbre y que la probabilidad provee una medida del grado de incertidumbre sobre el valor que puede asumir una variable aleatoria. También define conceptos como espacio muestral, puntos muestrales, eventos aleatorios y cómo las variables aleatorias pueden ser discretas o continuas dependiendo del tipo de espacio muestral subyacente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Variables aleatorias y probabilidades

Hemos usado el término variable para referirnos a una característica de interés en un estudio donde
se realizan mediciones. Las mediciones de la característica varían de unidad a unidad y el valor
asumido en cada una de ellas no puede ser predicho con certeza. Si bien la medición de la
característica tiene un “valor esperado”, existe una componente de azar que hace a estas
mediciones no determinísticas. Tales variables son conocidas como variables aleatorias e
interpretadas como una función que relaciona un resultado del estudio con un valor numérico. Las
variables aleatorias, por definición están íntimamente asociadas al concepto de probabilidad, término
que intuitivamente mencionamos a diario y que es posible calcular. Se puede decir que el
descubrimiento de métodos rigurosos para calcular probabilidades ha tenido un profundo efecto en
la sociedad moderna. La probabilidad es una medida del grado de incertidumbre sobre el valor que
puede asumir una variable aleatoria. A través de probabilidades se puede cuantificar el grado de
ignorancia, o certeza, sobre el resultado de un experimento aleatorio. En un universo determinista,
donde se conocen todas las condiciones que determinan un evento, no hay probabilidades. En el
universo de problemas biológicos, por el contrario, el conocimiento nunca es completo, siendo las
probabilidades fundamentales para poder asignar medidas de confiabilidad a las conclusiones. Los
conceptos de azar, variable aleatoria y probabilidad están omnipresentes en cualquier aplicación
Bioestadística.
Conceptos teóricos y procedimientos
El azar
La Bioestadística, como una forma de pensar sobre los datos biológicos, es una disciplina científica
relativamente nueva, ya que la mayoría de los desarrollos que hoy aplicamos ocurrieron en los
últimos 100 años.
Las contribuciones significativas de Ronald Fisher y Karl Pearson se
produjeron a principios del siglo pasado para responder a la necesidad de
analizar datos en agricultura y biología.

R. Fisher (1890-1962). Nacido en Londres. Científico, matemático,


estadístico, biólogo evolutivo y genetista.

No obstante, el núcleo conceptual que sustenta la disciplina formal, el cual está basado en el azar y
las probabilidades, se fue moldeando desde muchos años antes; primero por la necesidad de un
mundo numérico más fácil de manipular y luego por la necesidad de encontrar o describir patrones
estables en observaciones sociales y naturales. Las leyes del azar hicieron que el comportamiento
social y la naturaleza se vean como menos caprichosos o caóticos.
En 1800 se decía que la palabra azar no significaba nada, o bien que designaba una idea del vulgo
que señalaba la suerte o “la falta de ley”, de manera que debía quedar excluida del pensamiento de
la gente ilustrada (Hacking, 1991). La principal creencia del “determinismo” o pensamiento
determinístico era que todo suceso derivaba de una serie anterior de condiciones.
En oposición, se encontraba la lógica del azar que fue fuertemente influenciada por filósofos
franceses e ingleses. Entre la Revolución Industrial y la Revolución Francesa las leyes estadísticas
desplazaron el determinismo. En el otro extremo del determinismo, se destaca Peirce (1839-1914)
quien creía en el azar absoluto y en un universo en el que las leyes de la naturaleza, en el mejor de
los casos son aproximadas y evolucionan según procesos fortuitos.
“El azar es de todas las cosas la mas entremetida” (Hacking, 1991); el azar
siempre está presente y es una componente más a considerar en cualquier
problema que involucre variables aleatorias.
Así, el azar ya no era la esencia de la falta de ley sino que estaba en el centro de todas las leyes de
la naturaleza y de toda inferencia inductiva racional. Reducir el mundo a una cuestión de
probabilidades, es sin duda, una posición extrema, tanto como pensar que todo está dado y
determinado. No obstante la domesticación del azar abrió caminos para que las probabilidades y las
leyes estadísticas entraran a nuestro mundo.
Al extender las probabilidades a las ciencias de la vida, nació un
nuevo tipo de “conocimiento objetivo” producto de nuevas tecnologías
estadísticas para obtener información bajo incertidumbre.

Se presentan a continuación algunos conceptos que sustenta la estadística y permiten interpretar y


trasladar conceptos abstractos como el de azar y probabilidad en decisiones y respuestas a
preguntas sobre variables aleatorias.
Espacio muestral y variables aleatorias
Las variables aleatorias, pueden ser interpretadas como funciones usadas para describir los
resultados de un estudio aleatorio. Para el propósito del análisis de datos las clasificamos en
cuantitativas y cualitativas y a las primeras en discretas y continúas dependiendo de los posibles
valores que la variable pueda asumir (contable o no).
Para la definición formal de variable aleatoria, el tipo de variable es importante. El tipo de variable
depende del conjunto de todos los valores que potencialmente pueden asumir en un estudio
aleatorio. Tal conjunto de resultados posibles se denomina espacio muestral y es usualmente
denotado con la letra griega omega ( Ω ) .

Los conceptos de punto muestral y evento aleatorio de un espacio muestral ayudan a introducir el
concepto de variable aleatoria
a) Se denomina punto muestral a cada uno de los posibles resultados de un estudio aleatorio, es
decir a cada elemento de ( Ω ) .
b) Se llama evento a cualquier subconjunto de elementos de ( Ω ) .

Por ejemplo, supongamos un experimento aleatorio donde se tiran dos dados y se registran los
resultados de cada dado. Todos los pares de números del 1 al 6 conforman el espacio muestral. Un
evento de ( Ω ) , puede ser “que salga un seis en un dado y un seis en el segundo dado”; otro evento
puede ser “que salga un seis en un dado y cualquier otro número distinto de seis en el otro dado”.
Este segundo evento está constituido por más puntos muéstrales y por tanto será más probable de
ocurrir.
Variables aleatorias y probabilidades
Por esta idea, de que algunos eventos son más probables que otros,
es que cuando jugamos al “poker” la “escalera real” otorga más
puntos que un “par simple”. Esto se debe al hecho de que es más
probable obtener un “par simple” . ¡No todas las jugadas de 5 cartas
son equiprobables (o igualmente probables)!!
¡Un sesgo frecuente en el razonamiento probabilístico es pensar que,
porque los resultados del experimento son aleatorios, todos los
eventos tienen igual probabilidad NO debemos incurrir en el sesgo
de equiprobabilidad! La probabilidad de un evento puede ser, y
generalmente lo es, distinta a la de otro evento del mismo espacio
muestral.
Definiremos a una variable aleatoria como una función que asocia a cada elemento del espacio
muestral ( Ω ) un número real y luego a cada uno de estos valores le asignaremos probabilidades de
ocurrencia. El tipo de espacio muestral determina el tipo de variable aleatoria.
El espacio muestral asociado a una variable aleatoria de tipo continua es no contable, queriendo
significar que, entre dos valores de la variable, pueden realizarse un número infinito de otros valores.
Además, si el espacio muestral es continuo, la diferencia entre
valores de la variable está definida aritméticamente.

Ejemplo de variables aleatorias con espacios muéstrales con estas características son los
rendimientos, las ganancias de peso, las precipitaciones, entre otras.
Por el contrario, el espacio muestral asociado a una variable de tipo discreta es siempre contable, es
decir puede ser teóricamente enumerado, aún si éste es infinitamente grande o no está acotado. Por
ejemplo, el número de nematodos por hectárea registrado a partir de una muestra aleatoria de
hectáreas en producción de papas, podría no tener un valor límite.
En las variables discretas, es posible contar el número de veces que un
determinado valor ocurre en el espacio muestral.

Entre las variables discretas es importante distinguir al menos dos subtipos muy comunes en
estudios biológicos: las proporciones que provienen de conteos que no pueden superar el número de
elementos evaluados y los conteos no acotados o sin denominador natural. Ejemplo de una variable
discreta expresada como proporción es el número de semillas germinadas en cajas de Petri con 25
semillas cada caja; los resultados se expresan como proporciones porque existe un denominador
natural: la cantidad de semillas por caja. Ejemplo de variable discreta obtenida por un conteo (no
acotado) es el número de pústulas de roya por m 2 de cultivo.
Para el caso de proporciones es importante dejar expresado que si bien el
valor puede ser continuo en el rango 0-1, el espacio generatriz es discreto,
porque la base de la variable es el conteo.

Si el espacio muestral de una variable es discreto pero representado por nombres o códigos que
representan categorías excluyentes y exhaustivas de la variable, entonces la variable aleatoria es
una variable cualitativa de tipo categorizada (nominal u ordinal).
Probabilidad
El concepto de probabilidad puede definirse de distintas formas y con distintos niveles de
abstracción. Las definiciones clásicas, frecuencial y de Kolmogorov son las más conocidas.
Cuando ( Ω ) . es finito (el número de puntos muéstrales es contable) se puede dar una definición de
probabilidad que se basa en la observación de los elementos del espacio muestral. Ésta se
desarrolló originariamente estudiando los juegos de azar. y se conoce como el concepto o enfoque
clásico de probabilidad:
Si A es un subconjunto de puntos muéstrales de ( Ω ) , entonces la probabilidad de ocurrencia del
evento A, denotada por P(A) es:
Número de puntos muéstrales favorables
P(A)=
Número total de puntos muéstrales en el espacio muestral
Dado que el número de puntos favorables es un subconjunto del espacio muestral,
se deduce que la probabilidad de un evento siempre será un número positivo, entre
0 y 1.
La definición frecuencial de probabilidad es distinta ya que se refiere a una serie repetida de estudios
aleatorios. Generalmente se usa cuando el espacio muestral es infinito y por tanto no se pueden
enumerar todos los resultados posibles del estudio. Así, se repite el estudio un número grande de
veces y se registra la frecuencia relativa de ocurrencia de cada resultado, la que es luego usada
como un estimador de probabilidad. La definición frecuencial de probabilidad establece que:
Si A es un evento y nA es el número de veces que A ocurre en N repeticiones independientes del
experimento, la probabilidad del evento A, denotada por P(A), se define como el límite, cuando el
número de repeticiones del experimento es grande, de la frecuencia relativa asociada con el evento.
Por ejemplo, consideremos que la germinación de una semilla es un experimento aleatorio (puede
germinar o no). Supongamos que con A se representa el evento “encontrar la semilla germinada”. Si
se observan 1000 semillas, es decir se repite 1000 veces el ensayo de germinación (N=1000) en
condiciones tales que cada observación no afecte a las otras y 600 semillas germinan (nA=600), se
dice que la probabilidad estimada de observar una semilla germinada, está dada por:
nA
P(A) = P(observar una semilla germinada) = = 600/1000= 0,6
N
Éste es el concepto de frecuencia de ocurrencia de un evento y, entonces, surge la pregunta: ¿Qué
diferencia existe entre el concepto de frecuencia relativa y el de probabilidad? Si bien la analogía es
fundamental, las frecuencias se entienden como probabilidades sólo cuando N tiende a infinito. Si el
número de veces que se repite un experimento no es grande, entonces hablaremos de frecuencia
relativa y diremos que ésta “aproxima” una probabilidad.
Otra idea importante para comprender la medida de probabilidad es la de eventos mutuamente
excluyentes.
Se dice que dos eventos son mutuamente excluyentes si cada uno está formado por puntos
muéstrales distintos, es decir no existe ningún punto muestral en la intersección de los subconjuntos
que representan los eventos y , por la teoría de conjuntos, se tiene:
Si A y B son dos eventos deΩ, la unión de eventos conforma un nuevo conjunto, que contiene a los
puntos muéstrales de A y de B. La unión de A y B se denota por AᴗB.
Si A y B son dos eventos de Ω, la intersección de eventos conforma un nuevo conjunto, que
contiene a los puntos muéstrales que simultáneamente pertenecen al subconjunto A y al
subconjunto B. Denotaremos la intersección de A y B con AᴖB.
Cuando dos eventos son excluyentes, la intersección es cero y por tanto la probabilidad de la unión
de esos eventos, P(AᴗB), es la suma de las probabilidades de cada evento. Por el contrario, si la
intersección no es vacía, la probabilidad de la unión de eventos es la suma de las probabilidades de
cada evento, menos la probabilidad de la intersección.
La definición de probabilidad de Kolmogorov (1937) establece que una función P(.) será considerada
una medida de probabilidad si a cada evento de un espacio muestral se le asigna un número real
entre 0 y 1 y, además, se cumplen tres axiomas:
a) la probabilidad asociada al evento espacio muestral es igual a 1. Este resultado sugiere que, si el
evento de interés es todo el espacio muestral, la probabilidad de ocurrencia dado el experimento
aleatorio, es 1. Existe certeza de la existencia de un resultado en el espacio muestral.
b) la probabilidad de cualquier evento que sea un subconjunto del espacio muestra es mayor o igual
a cero. Si entendemos a la probabilidad como el límite de una frecuencia relativa (cantidad de casos
respecto de un total) es claro que las probabilidades nunca pueden ser negativas.
c) Si existen dos o más eventos mutuamente excluyentes, la probabilidad de que ocurra uno u otro
evento, es decir la probabilidad de la unión es igual a la suma de la probabilidad de cada uno de
estos eventos.
Si los eventos no son excluyentes, el cálculo de la probabilidad de que ocurra uno o el otro evento
debe corregirse restando la probabilidad de los elementos en la intersección de ambos eventos.
Llegamos a la siguiente proposición:
Dados los eventos A y B, la probabilidad de que ocurra A o B es dada por P(AᴗB) = P(A) + P(B) -
P(AᴖB), donde P(AᴖB) denota la probabilidad de que ocurran A y B simultáneamente.
Si A y B son mutuamente excluyentes, AᴖB es vacía y por tanto P(AᴖB) = 0.
Un teorema asociado a probabilidades condicionales de eventos, es el Teorema de Bayes. A través
de éste es posible encontrar la Probabilidad de un evento de un espacio muestral, dado que otro
evento del mismo espacio ya se ha realizado. Por ejemplo, si se estudia la probabilidad de aborto
espontáneo en vacas de segunda preñez de un establecimiento ganadero, el cálculo de probabilidad
no será el mismo si se condiciona al requerimiento de probabilidad de abortos de vacas de segunda
preñez que ya tuvieron un aborto previo. El condicionamiento, restringe el espacio muestral que se
usa como referencia en el cálculo de la probabilidad.
El teorema de Bayes establece que P(A/B)= P(AᴖB)/ P(B).
Esta expresión se lee como “la probabilidad condicional del evento A, dado el evento B (es decir
dado que ya ocurrió B), es el cociente entre la probabilidad conjunta de A y B (es decir la
probabilidad de que se den ambos eventos) y la probabilidad marginal de B. Cuando la probabilidad
de A dado B es igual a la Probabilidad de A, entonces se dice que ambos eventos son
independientes, es decir el hecho de que se dé B, no afecta la probabilidad de A.
Esta expresión se lee como “la probabilidad condicional del evento A, dado el evento B (es decir
dado que ya ocurrió B), es el cociente entre la probabilidad conjunta de A y B (es decir la
probabilidad de que se den ambos eventos) y la probabilidad marginal de B. Cuando la probabilidad
de A dado B es igual a la Probabilidad de A, entonces se dice que ambos eventos son
independientes, es decir el hecho de que se dé B, no afecta la probabilidad de A.

Una idea importante en Estadística es la de independencia de eventos. Se dice que


dos eventos (A y B) son independientes, si la probabilidad de la intersección de
ambos también puede calcularse como el producto de las probabilidades de cada
evento, P(AᴖB)=P(A).P(B). En esta situación la probabilidad de A condicional a B es
igual a la probabilidad de A (no condicional).

Distribuciones de variables aleatorias


Distinguir el tipo de variable es útil no solo en la etapa exploratoria del análisis de datos sino también
en etapas donde se quiera asignar probabilidades a eventos relacionados con la variable.
Para ciertos tipos de variables aleatorias ya se conocen modelos probabilísticos teóricos que ajustan
razonablemente bien sus distribuciones empíricas y por tanto se usan estos modelos para el cálculo
de probabilidades.
Para una variable continua y de distribución simétrica
unimodal, es común el uso del modelo Normal; mientras
que para proporciones se piensa en el modelo
probabilístico Binomial y para conteos no acotados en el
modelo Poisson.

Una vez que se tiene un modelo teórico para la distribución de valores de la variable de interés, es
fácil calcular probabilidades.
Hemos visto a una variable aleatoria como un descriptor de eventos aleatorios que tiene asociada
una función para asignar probabilidades a esos eventos. La función de distribución de probabilidad
de una variable aleatoria discreta y la función de densidad de una variable aleatoria continua
denotada como f(.) contienen exhaustivamente toda la información sobre la variable. La distribución
de una variable aleatoria, independientemente del tipo de variable, puede representarse también por
su función de distribución, denotada como F(y). Esta función asigna a cada valor de la variable un
valor entre 0 y 1 que indica la probabilidad de que la variable, observada para un caso particular,
asuma un valor menor o igual al valor en que se está evaluando la función. Por ejemplo, si
F(30)=0,60 diremos que 0,60 es la probabilidad de que la variable se realice en un caso de análisis
particular, con el valor 30 o con un valor menor a 30.
Para ejemplificar los conceptos distribucionales de probabilidad y función de distribución
supongamos un experimento aleatorio donde se tiran dos dados, cada uno de los resultados
posibles de la tirada son representados por el par de números que salen:
Ω={(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4),
(3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3),
(6,4), (6,5), (6,6)}
Este espacio muestral es finito y discreto y por ello se pueden calcular probabilidades desde el
concepto clásico, para cualquier variable aleatoria definida sobre el espacio. Por ejemplo, si se
quiere estudiar la variable aleatoria Y=suma de los puntos en los dos dados, el espacio muestral de
esta variable tendrá como elementos las sumas posibles (es decir todos los valores posibles para Y).
Ω(y)={2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Para una variable aleatoria discreta la función de distribución de probabilidades f(.), es aquella que
designa una probabilidad de ocurrencia a cada valor de la variable (Tabla 2.1). A diferencia de la
función de probabilidad, se tiene la distribución acumulada F(.), que designa una probabilidad de
ocurrencia para valores menores o iguales a un valor de la variable. En la Tabla 2.1. En la primera
columna, se detallan los posibles valores de la variable Y, en la segunda los valores de f(y) y en la
tercera los de F(y).
Por ejemplo, para la variable rendimiento de soja en qq/ha, esta función podría darnos la
probabilidad de que el rendimiento de un lote particular, tomado al azar de una población de lotes
donde se ha registrado el rendimiento, asuma un valor entre 30 y 35 qq/ha.
El histograma de la distribución de frecuencias relativas de la variable provee una estimación
(aproximación) de f(IC), es decir la probabilidad de que Y asuma un valor en el intervalo de clase IC.
Si el número de datos es grande el histograma representa una aproximación buena de la función de
densidad teórica ya que las frecuencias relativas pueden interpretarse como probabilidades.
Para una variable continua la función de distribución acumulada, se puede visualizar utilizando un
gráfico de dispersión con posibles IC de valores de Y en el eje de las abscisas y la probabilidad
acumulada correspondiente a cada IC en el eje de las ordenadas.
La función de distribución empírica en lugar de trabajar con IC, trabaja directamente con los valores
observados de Y, relacionando cada valor con la probabilidad de valores menores o iguales. En las
gráficas de funciones de distribución empírica, puede leerse la probabilidad de eventos que se
expresan en función de desigualdades. Por ejemplo, en la función de distribución de la variable litros
de leche producidos por cada lactancia en vacas de establecimientos lecheros de una cuenca
lechera, con un valor esperado de 7002 l/lactancia y una desviación estándar de 3975 l/lactancia,
podríamos indagar sobre la probabilidad de observar lactancias con producciones menores o iguales
a 3000 l o bien con producciones mayores a 3000 l. En la Figura 2.2 se observan los valores
F(3000)=0,1 y 1-F(3000)=0,9; por tanto el valor 3000 es el cuantil 0,10 de la distribución de la
variable.

Figura Histograma de la variable litros de leche/lactancia (izquierdo) y gráfico de la función de


distribución empírica en una base de datos con 5000 registros (derecha).

Variables aleatorias y probabilidades


Si la distribución teórica no se conoce, las probabilidades acumuladas se pueden aproximar desde
las funciones de distribución empírica. Para que las frecuencias que allí se leen puedan ser
interpretadas como probabilidades es importante contar con una gran cantidad de datos ya que,
como se vio con el concepto frecuencial de probabilidad, las probabilidades deben interpretarse
como frecuencias relativas, pero en el límite de N tendiendo a infinito.

El concepto de función de distribución acumulada y su aproximación


vía la distribución empírica se aplica en gran variedad de situaciones
que van desde los juegos de azar hasta el análisis riesgos.

Si bien las funciones de probabilidad y de densidad, de las variables aleatorias discretas y continuas,
contienen toda la información sobre los procesos que generan los datos de la variable, usualmente
es conveniente resumir las principales características de la distribución. Para todas las distribuciones
existen valores numéricos (constantes) que se denominan parámetros de la distribución.
Desde un punto de vista estadístico, un parámetro es una función de todos los valores distintos que
asume la variable aleatoria en la población. Mientras que una función de los valores la variable, pero
en una muestra, se conoce con el nombre de estadístico. Luego, los parámetros se derivan de
poblaciones y los estadísticos desde muestras.
El valor esperado y la varianza son los parámetros más usados en estadística para estudiar y utilizar
funciones de distribución de variables aleatorias.
 El valor esperado, formaliza la idea de valor medio de un fenómeno aleatorio.
 La varianza formaliza la idea de incertidumbre y su recíproco la idea de precisión, más varianza
indica más incertidumbre sobre el fenómeno y menor precisión de las conclusiones que podemos
elaborar desde los datos que lo caracterizan.
La esperanza matemática de una variable aleatoria, usualmente denotada por E(.) o la letra griega
Mu (μ) es, desde un punto de vista intuitivo, un promedio de los valores asumidos por la variable,
donde cada valor es ponderado por su probabilidad de ocurrencia.
La esperanza de una variable aleatoria sólo proporciona información parcial acerca de la función de
probabilidad (o densidad) ya que explica dónde está posicionada la distribución de valores sobre la
recta real. La esperanza es una medida de la tendencia central de la distribución. Pero dos
distribuciones con igual esperanza pueden tener distinta dispersión, y por tanto la esperanza puede
no ser suficiente para caracterizar completamente de la distribución.

La varianza es un parámetro que tiene un valor pequeño cuando la mayoría de los


valores de la variable se encuentran cerca de la esperanza y crece a medida que
éstos se desvían del centro de la distribución. Por ejemplo, la varianza es cero si
todos los datos son exactamente iguales.

Notación
P(A)  probabilidad del evento A
La esperanza o media de datos poblacionales (distribución) es representada por la letra griega μ,
mientras que el estadístico media muestral por la letra que representa la variable con una raya
encima de la letra ( ). Y
La letra griega se usa para representar el parámetro desviación estándar (DE), es decir la desviación
estándar calculada con datos de la población o la desviación estándar de la distribución de la
variable, mientras que la letra S o la expresión DE se usa para el estadístico desvío estándar
muestral. 
Definiciones
Espacio muestral: Se llama espacio muestral al conjunto de todos los resultados posibles de un
estudio aleatorio experimental u observacional. Será denotado con la letra griega omega (Ω).
Punto muestral o evento elemental: Se llama punto muestral o evento elemental a cada uno de los
elementos del conjunto Ω y será denotado genéricamente como .
Evento: Dado un espacio muestral Ω se llama evento a cualquier subconjunto de Ω.
Eventos mutuamente excluyentes: Se dice que dos eventos A y B de un espacio muestral Ω son
mutuamente excluyentes si no contienen elementos en común, o sea si la intersección de A y B es
el conjunto vacío ( ). AᴖB= Ǿ
Medida de probabilidad: Sea  un espacio muestral. La función P(.) que asigna a cada evento de  un
número real en el intervalo [0,1], se llama medida de probabilidad.
Aplicación
Análisis de datos de velocidad del viento
En un establecimiento agrícola se desea usar la energía eólica como una energía alternativa para
bombeo de agua subterránea. El viento, al estar constantemente en movimiento produce energía. Se
estima que la energía contenida en los vientos es aproximadamente el 2% del total de la energía
solar que alcanza la tierra. El contenido energético del viento depende de su velocidad. Cerca del
suelo, la velocidad es baja, aumentando rápidamente con la altura. Cuanto más accidentada sea la
superficie del terreno, más frenará ésta al viento. Es por ello que sopla con menos velocidad en las
depresiones terrestres y más sobre las colinas. Además, el viento sopla con más fuerza sobre el mar
que en la tierra. El instrumento que mide la velocidad del viento es el anemómetro, que
generalmente está formado por un molinete de tres brazos, separados por ángulos de 120° que se
mueve alrededor de un eje vertical. Los brazos giran con el viento y accionan un contador que indica
en base al número de revoluciones, la velocidad del viento incidente. La velocidad del viento se mide
en nudos, generalmente en náutica, y mediante la escala Beaufort, ideada en el siglo XIX por el
Almirante Beaufort; esta es una escala numérica utilizada en meteorología que describe la velocidad
del viento en km/h o m/hora. Esta asigna números que van del 0 (calma) a 12 (huracán).
Gráfico de la distribución empírica de la velocidad del viento (km/h) en dos zonas de un
establecimiento agrícola, denominadas zona sur (izquierda) y zona norte (derecha)

Se considera que un molino de viento para generar electricidad, comienza a funcionar cuando el
viento alcanza una velocidad de unos 19 km/h, logra su máximo rendimiento con vientos entre 40 y
48 km/h y deja de funcionar cuando los vientos alcanzan los 100 km/h. Los lugares ideales para la
instalación de los generadores de turbinas son aquellos en los que el promedio anual de la velocidad
del viento es de al menos 21 km/h. Mientras que si el molino se coloca con fines de extracción de
agua subterránea, se espera una velocidad del viento promedio de 26 km/h. Las distribuciones
disponibles muestran que en la zona Norte la mediana de la velocidad del viento es
aproximadamente de 46 km/h, esto es equivalente a decir que el 50% de las veces, el viento alcanza
una velocidad promedio de 46 km/h o menor. El 10% de las veces, la velocidad del viento superó 48
km/h. El rango de velocidades en la zona norte varía entre 37 km/h hasta 54 km/h, mientras que, en
la zona sur se registran velocidades del viento que oscilan entre los 18 y 29 km/h. Sólo el 10% de las
veces la velocidad del viento supera los 26 km/h.
Conclusión
Se recomendaría la zona norte como aquella con mejores aptitudes en cuanto a la velocidad del
viento para poder utilizar la energía eólica para extraer agua.
Modelos probabilísticos
Cuando estudiamos una variable aleatoria, es de interés calcular probabilidades sobre la ocurrencia
de ciertos valores (eventos). Por ejemplo, podríamos estimar la probabilidad de obtener un
rendimiento de maíz superior a 100 bolsas/ha, de tomar 100 semillas y que no germinen más de 90,
o de tomar una muestra de insectos con golpes de red y capturar menos de 20 insectos. Los
cálculos de probabilidad pueden hacerse luego de enumerar todo el espacio muestral, cuando esto
es posible, usando información sobre las frecuencias con que ocurren los distintos eventos o bien
usando un modelo de distribución teórico que ajuste relativamente bien a la distribución empírica de
la variable. Para la elección del modelo de probabilidad teórico, es importante considerar
características de la variable tales como la forma en que se cuantifica (medición, proporción, conteo,
etc.). La naturaleza de la variable, es decir si es discreta o continua, las condiciones en que se
realiza el experimento y el registro de los valores son determinantes para la selección de un modelo
probabilístico.
Conceptos teóricos y procedimientos
El concepto de variable aleatoria está íntimamente ligado al de función de densidad y función de
distribución. Por lo general la forma o expresión matemática de la función que describe a la variable
aleatoria no se conoce, por lo que los técnicos e investigadores suelen proceder a recolectar datos
mediante estudios observacionales o experimentales, y a partir de ellos buscar cuál es la función
que mejor describe la o las variables aleatorias en estudio.
No cualquier función matemática es útil para caracterizar una variable aleatoria, por el contrario, las
funciones de densidad y de distribución acumulada deben reunir una serie de propiedades para que
sea posible asignar probabilidades a los eventos de interés a partir de las mismas. Desde el punto
de vista teórico se han estudiado con suficiente detalle un conjunto de funciones matemáticas que
verifican las propiedades de las funciones de distribución acumulada y de las funciones de densidad
tanto para variables discretas como para continuas. Luego, el técnico o investigador que no conoce
la función exacta que caracteriza a la variable aleatoria que está estudiando puede, por
conocimiento empírico, proponer alguna de las funciones, del conjunto de funciones antes indicado,
para describir el comportamiento de su variable. De la habilidad para escoger una distribución
adecuada, depende la calidad de los modelos y las predicciones que se construyan.
Variables aleatorias continuas
Para seleccionar un modelo probabilístico para una variable aleatoria continua cuando se tienen
datos de esa variable, resulta recomendable graficar un histograma de frecuencias relativas y
observar la forma del mismo. Existen diversos modelos téoricos o funciones matemáticas que
podrían ajustar o “aproximar bien” la forma del histograma.
El modelo de probabilidad Normal o Gaussiano. Esta distribución es, podríamos afirmar, la más
usada en las ciencias biológicas, agronómicas y forestales ya que usualmente ajusta bien
histogramas de frecuencias de variables como el peso y la altura de seres vivos, así como otras
mediciones morfométricas además del rendimiento. Estas características, particularmente
interesantes en agronomía, son producidas por el resultado de la acción conjunta de muchos
factores y por tanto asumen muchos valores distintos (en un continuo de valores posibles) entre las
unidades de análisis. No obstante, algún valor o intervalo de valores se repite con mayor frecuencia,
mientras que otros muy alejados de estos valores centrales (por ser mucho mayores o mucho
menores) aparecen con menor frecuencia.
La distribución normal se usa para el cálculo de probabilidades de variables continuas, cuyos
histogramas tienen forma “acampanada”, por eso y porque su expresión matemática fue estudiada
por Gauss, también se conoce como modelo Gaussiano. El siguiente histograma corresponde a la
variable aleatoria perímetro que fue medido sobre numerosas cabezas de ajo, para el cual el modelo
Normal con media 17,2 y varianza 10,7 pareciera proveer un buen ajuste.

Histograma de frecuencias relativas para la variable perímetro de cabezas de ajo (Archivo Ajoblanc).
Como puede apreciarse, la distribución de frecuencias de esta variable tiene ciertas
características: es aproximadamente simétrica, posee una gran cantidad de valores cerca
del centro. La media, la moda y la mediana son prácticamente iguales y los valores
extremos, tanto inferiores como superiores, tienen menor frecuencia de ocurrencia que
los valores centrales. Además, la distribución es simétrica, es decir con distribución de
valores superiores a la media igual a la de valores por debajo de la media.

El modelo Normal se usa para calcular probabilidad en variables


continuas y de distribución simétrica unimodal.

La distribución normal de una variable aleatoria Y tiene la siguiente función de densidad donde puede
asumir valores entre menos infinito e infinito y puede asumir valores entre cero e infinito. La
localización del centro de la campana está dada por el parámetro μ (también conocido como esperanza
de Y) y la mayor o menor amplitud de la campana viene dada por el parámetro de la varianza de Y en la
población.

La función de densidad de una variable aleatoria normal tendrá distintas formas


dependiendo de sus parámetros que son la esperanza y varianza.

La distribució n normal es un modelo de probabilidad y una vez adoptado el modelo es posible


responder a las siguientes preguntas:
- ¿Cuál es la probabilidad de que la variable en estudio tome valores menores a un valor
determinado?
Por ejemplo, si la variable es el rendimiento de un cultivar, el responder a esta pregunta podría
indicar la posibilidad de obtener rendimientos que no justifiquen el costo de producció n.
- ¿Cuál es la probabilidad de que la variable en estudio tome valores mayores a un valor
determinado?
Si la variable aleatoria en estudio es la cantidad de semillas de maleza en el suelo antes de la
siembra, el responder a esta pregunta podría indicar si se necesitará o no aplicar herbicida (este
podría ser el caso de modelació n de una variable aleatoria discreta como si se tratara de una
continua).
- ¿Cuál es la probabilidad de que la variable en estudio tome valores entre 2 valores
determinados?
Esta probabilidad es de interés, por ejemplo, al clasificar tubérculos de papa dado que aquellos con
volumen entre 59 cm3 y 80 cm3 son considerados de valor comercial.

Podemos tener distribuciones normales con iguales valores de varianza, pero diferentes valores de
esperanza. Supongamos que la producció n de leche diaria de las vacas de un tambo se distribuye
como el modelo normal, con esperanza 25 l y varianza 9 l2. Si a las vacas se les da una nueva ració n
que aumenta en 5 l la producció n diaria, pero no modifica las varianzas, la funció n de densidad de
la producció n de leche diaria de los animales con la nueva ració n tendrá un valor esperado de 30 l
(Figura).
Para hacer una gráfica que represente las densidades en estudio se usó el software InfoStat accionando
el menú APLICACIONES  DIDÁCTICAS  GRÁFICOS DE FUNCIONES DE DENSIDAD CONTINUAS, se
especificaron los parámetros como se muestra en la Figura y posteriormente, en la ventana de
Herramientas gráficas, solapa Series, primero se presiona el botón Clonar, y luego, a una de las series
Versión Estudiantil Versión Estudiantil laVersión
se le cambió media Estudiantil
a 30 Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónFunción de densidad
Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.13
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.10
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Densidad

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.07
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.00
Versión Estudiantil Versión Estudiantil
10.00 Versión
17.50Estudiantil
25.00Versión Estudiantil
32.50 Versión
40.00 Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Producción de leche (litros/dia) Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Funciones de densidad normal con la misma varianza pero distintas medias (μ 1 = 25 y μ2 = 30)

El modelo Normal permite aproximar, como se dijo, el comportamiento estadístico de


muchas variables continuas pero también incluso de algunas variables discretas
cuando los tamaños muestrales con los que se trabaja son grandes.

En un tambo con producciones diarias distribuidas normal con media 25 l y varianza 9 l 2, el productor
puede decidir darles más ración a las vacas con menor producción y menos ración a las vacas de mayor
producción, ocasionando un cambio en la varianza, pero no necesariamente sobre la media. Se espera
que con raciones diferenciales, la varianza disminuya, ya que las vacas que producían poco, al tener
más ración se acercarán al promedio de las producciones, y las vacas con mayor producción, al tener
una quita se acercarán también al promedio de las producciones, así, la amplitud de las producciones
será menor. Si la nueva técnica reduce la varianza a 2, la gráfica que compara las dos condiciones
Versión Estudiantil experimentales
Versión podría
Estudiantil Versión ser como
Estudiantil la de la Figura.
Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.22
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
D e n s id a d

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 0.15
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil0.07
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0.00
Versión Estudiantil Versión Estudiantil 20Versión Estudiantil Versión Estudiantil
40 Versión Estudiantil
Versión Estudiantil 10
Versión Estudiantil Versión Estudiantil Versión30 Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión
Producción Estudiantil
de leche Versión Estudiantil
(litros /dia) Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

Funciones de densidad normal con la misma media, pero distintas varianzas


El cá lculo de probabilidades en variables aleatorias continuas, como es el caso de las
variables con distribució n Normal, puede realizarse grá ficamente midiendo el á rea
bajo la curva de la funció n de densidad correspondiente al intervalo de valores de
interés. En cualquier distribució n continua si se fijan dos puntos cualesquiera, por
ejemplo, y1 y y2, sobre el eje que representa los valores de la variable (abscisas), la
porció n del á rea por debajo de la curva que queda comprendida entre esos dos puntos
corresponde a la probabilidad de que la variable aleatoria se realice entre y1 y y2. Si se
llama A a esta á rea, se puede representar simbó licamente lo expuesto anteriormente
como:
A = P (y1< Y <y2)
La probabilidad que un dato de rendimiento tomado al azar desde la població n esté
comprendido en el intervalo 50 a 65 qq/ha, está representada por el á rea sombreada
en la Figura y es igual a la proporció n de la superficie del á rea respecto al á rea total
bajo la curva (que por ser una funció n de densidad vale 1).
Por ejemplo, si Y es el rendimiento de un híbrido de maíz que puede modelarse con una
distribución normal, con media de 60 qq/ha y varianza de 49 (qq/ha)2 (esta especificación
suele escribirse de manera concisa como Y~N(60; 49)).
Función de densidad normal para el rendimiento de un híbrido de maíz con la probabilidad del evento [50 < Y <65]
representado por el área sombreada.
De esta manera se lee que la probabilidad del evento “observar un rendimiento comprendido entre 50
y 65 qq/ha” es de 0,6859. Esta probabilidad se obtuvo con InfoStat integrando la función de densidad
normal (con parámetros media=60 y varianza=49) entre 50 y 65:

Antes de disponer de software que calculen la proporción relativa de éstas áreas, es


decir resuelvan estas integrales, se usaban tablas construidas de manera tal de poner
a disposición del usuario las probabilidades para una serie de eventos posibles.

Aplicación
Manejo de plantaciones
Una de las estrategias para determinar el manejo de bosques naturales se basa en la reducción de un
porcentaje de los árboles presentes (raleo). Los árboles que se cortan son los de mayor diámetro. Si la
distribución de los diámetros de los árboles sigue una distribución normal, con media 60 cm y varianza
144 cm2.
a) ¿qué porcentaje de árboles se removerá si se talan todos los árboles con más de 70 cm de diámetro?
b) Si se quiere remover el 30% de los árboles, ¿cuál será el diámetro mínimo para cortar el árbol?
Estrategia de análisis
Graficaremos una distribución normal y demarcamos el área de interés. Usando el menú APLICACIONES
 DIDÁCTICAS  GRÁFICOS DE FUNCIONES DE DENSIDAD CONTINUAS de InfoStat se obtiene la siguiente
ventana de diálogo, donde se deben colocar los parámetros de la distribución (60; 144) (Figura ).

InfoStat. Ventana de diálogo para graficar una función de densidad normal con media 60 y varianza 144 y el
área correspondiente con valores mayores a 70.

El software nos proporciona directamente la probabilidad de encontrar valores superiores a 70,


P(Y>70cm) = 0,2023 (Figura).
Función de densidad normal para los diámetros de árboles con la probabilidad del evento [Y 70] representado
por el área sombreada.
Según los cálculos si se ralean árboles con diámetros mayores a 70 cm, se talará un 20% de los árboles
presentes en el bosque. Para responder a la segunda pregunta, cuál será el diámetro mínimo para
cortar el árbol si se quiere remover el 30% de los árboles, debemos encontrar el valor de la variable por
encima del cual se encuentra el 30% de los diámetros, es decir debemos hallar el percentil 70 o cuantil
0,70 de la distribución de los diámetros. Podemos hacer esto con el calculador de cuantiles y
probabilidades de InfoStat del menú ESTADÍSTICAS  PROBABILIDADES Y CUANTILES. Aparecerá una
ventana de diálogo donde se deben ingresar los valores de los parámetros de la distribución y el cuantil
que se desea calcular, en nuestro caso, C 0,70. Al presionar el botón Calcular tendremos la estimación del
cuantil, en este caso X=66,29.

InfoStat. Ventana de diálogo para calcular probabilidades y cuantiles de una función de densidad normal para
obtener el cuantil 0,70 de una distribución normal con media 60 y varianza 144. Resultado: 66,29

También podría gustarte