Módulo 4: Introducción
Módulo 4: Introducción
Introducción
4.6 Muestreo
Conclusiones
Introducción
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that
you’re a human (and not a spambot).
En este módulo trataremos de entender los distintos tipos de distribuciones, sus características, sus
relaciones y su posible uso para realizar estimaciones posteriores.
MAPA COMPLETO
Comprender las distintas clases de temas y aplicaciones prácticas que se pueden lograr con
técnicas estadísticas.
Variables aleatorias
En el siguiente video se explican los conceptos de variables aleatorias, discretas y continuas, en ejemplos
sencillos.
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that you’re
a human (and not a spambot).
FísicayMates (2014). Variables aleatorias discretas y continuas. Recuperado el 14 de mayo de 2020 de YouTube.
if i
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that you’re
a human (and not a spambot).
Píldoras matemáticas (2017). Qué es la distribución normal. Recuperado el 14 de mayo de 2020 de YouTube.
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that you’re
a human (and not a spambot).
Píldoras matemáticas (2017). 04 Cómo usar la tabla de distribución normal. Recuperado el 14 de mayo de 2020 de
YouTube.
C O NT I NU A R
Tema 2 9
En esta unidad necesitamos los conceptos anteriores de probabilidad, pero vamos a tratar de encasillar
cada caso en determinadas características que responderán a una distribución específica.
Una vez que se reconozca estas características propias, se podrán sacar los valores propios de probabilidad
con la función de la distribución, igual que el promedio y la dispersión de esa muestra.
Este cálculo se hará más rápido en probabilidad, ya que las funciones están estandarizadas.
Podemos decir que una variable aleatoria es una función que asocia a cada elemento del espacio muestral E
un número real. Es una función (como una función lineal Y=mx+b), donde sí a la “x” la reemplazo por un valor,
la función “Y” me dará la probabilidad de ocurrencia de ese valor. Si la experiencia puede repetirse, se
observa que el número de veces que sale cada resultado se va estabilizando alrededor de un valor. Es decir,
la variable aleatoria tiene asociada una distribución de probabilidad que describe su comportamiento a largo
plazo.
C O NT I NU A R
Tema 3 9
Las variables cuantitativas, que solo pueden ser representadas por valores enteros (cantidad de personas,
cantidad de productos).
Cuando solamente puede tomar un número finito o infinito numerales de valores de un cierto intervalo. La
función de probabilidad correspondiente se llama función de cuantía y se simboliza con p (xi).
Esta distribución de datos nos proporciona la probabilidad de cada uno de los valores que toma la variable.
Otra forma de representar la distribución de probabilidad es a través de la Función de Distribución Fx (x) que
nos proporciona la P (X≤x), podemos pararnos en un valor de X determinado y calcular las probabilidades
acumuladas hasta ese punto, lo que nos permite saber la probabilidad de los mayores o menores a ese valor,
sin necesidad de estar sumando cada valor individualmente.
P (X≤a)=Fx(a)
- P(X>a)=1-P (X≥a)=1- Fx(a)
C O NT I NU A R
Tema 4 9
Pueden tomar cualquier valor de la recta real (longitud de una pieza, altura de un alumno, resistencia a la
rotura de una pieza, etc.)
Como puede tomar cualquier valor de un cierto intervalo, la función de probabilidad correspondiente se llama
función de densidad de probabilidad y se simboliza con f (x).
Al tener la v. a. continua infinitos posibles valores, no podemos dar para cada uno de ellos una probabilidad,
pero sí que podemos estudiar las probabilidades a través de una función, llamada Función de Densidad f x(x),
que nos proporciona la densidad (no la masa) de probabilidad. Esta densidad es la agrupación debajo de un
área (matemáticamente), que calcula el total de probabilidades, debajo de la curva entre los parámetros que
yo le indico, que pueden ser menores a un valor, mayores a un valor o entre dos valores.
Matemáticamente, ese cálculo se realiza con integrales, como aquí no lo vamos a realizar, ya tenemos
calculadas las integrales generales para aplicar la fórmula de uso, que veremos más adelante, que es la
utilizada en la práctica.
Para calcular cualquier probabilidad, lo único que tenemos que determinar es el valor del área que queda por
debajo de la curva o función que tenga graficada entre los valores que nos interesan.
En el caso de que sea una figura geométrica, el cálculo es sencillo, si no, deberemos integrar:
Esto ocurre porque no se puede calcular la densidad o el área de un punto, por lo tanto, da igual el valor
numérico que esté incluido o no en el intervalo a calcular.
Por lo tanto, sabemos que cuando utilicemos variables o funciones continuas “NO” nos pueden pedir
calcular valores exactos de la variable P(X=a), ya que no se pueden calcular con este tipo de funciones.
1 E (k) = k
2 E (k .x) = k. E(x)
3 E (k .g(x)) = k E (g(x))
S= {1, 2, 3, 4, 5,6}
Aquí X (1)=2, X (2)=4, X (3)=6, X (4)=8, X (5)=10, X (6)=12. También, cada número tiene
Distribución de Bernoulli
La distribución de Bernoulli es un modelo teórico utilizado para representar una variable aleatoria discreta, la
cual solo puede resultar en dos sucesos mutuamente excluyentes.
Se realiza con un espacio muestral, calculado a partir de una muestra con repetición de un número de veces
acotado (n≤30), dando como resultado el estudio de dos posibles sucesos, que se denominan Éxito y
Fracaso de este espacio, los cuales son independientes y exhaustivos (son los únicos que pueden
aparecer), por lo tanto, la suma de sus probabilidades debe ser igual a la probabilidad total.
P(x)=1 el primer suceso se denominará Éxito (p) con p(x)=a y el segundo se denominará fracaso (q) con
q(x)=b p(x)+q(x)=1
El resultado distinto al resultado que esperamos que ocurra. Es decir, “no éxito “o fracaso.
En otras palabras, la distribución de Bernoulli es una distribución aplicada a una variable aleatoria discreta, la
cual solo puede resultar en dos sucesos posibles: “éxito” y “no éxito”.
Distribución binomial
En base al experimento de Bernoulli se calcula la distribución binomial, para calcular las probabilidades de
distintos eventos que tengan las características de un experimento de Bernoulli.
p(x) = {(n/x) p x (1-p) n-x para x = 0,1, ........, n o para otros valores de x.
La distribución binomial es el modelo probabilístico adecuado para describir fenómenos o experimentos con
las siguientes características:
1 Se realizan n pruebas u observaciones en cada una de las cuales hay solo los resultados
posibles, digamos e= “éxito “y f = “fracaso”.
2 Cada prueba es independiente de las restantes, o sea que el resultado de cada una de ellas es
estadísticamente independiente de los resultados de las restantes.
3 En cada prueba los resultados Éxito o fracaso constituyen un conjunto de dos sucesos
mutuamente excluyentes.
Su función de probabilidad es: usaremos esta fórmula como fórmula de cálculo en los ejercicios cuando
nos piden probabilidades puntuales P(x=a)
Ejemplo
Supongamos que la probabilidad de tener una unidad defectuosa en una línea de ensamblaje es de 0.05. Si
el conjunto de unidades terminadas constituye un conjunto de ensayos independientes:
Lo primero que vamos a hacer es fijarnos si cumple con las condiciones de in experimento de Bernoulli, para
ver si lo podemos resolver con distribución binomial:
Probabilidad de éxito y fracaso conocidas p(x)=0.05 (unidades defectuosas) y q(x) fracaso, unidades
no defectuosas (1-0.05) = 0.95.
Los eventos son solo dos, y entre ambos forman la probabilidad total y son independientes entre sí.
En este punto me piden a lo sumo 2, que es como máximo 2 o X≤2 (siempre se considera el x=0 porque
existe el caso y la probabilidad de que no ocurra el evento.
P (x≤2) = P(x=0)+P(x=1)+P(X=2)= cada una de ellas se calcula con la fórmula anterior y luego se suman, o se
puede calcular con tabla con los menores a ese valor o el acumulado de ese valor o con Excel con la
distribución binomial acumulada. En este caso lo haremos con fórmula y sumamos. La cantidad de muestra
es la misma n=10
En este caso, por lo menos 1 es una o más P (x≥1), deberíamos realizar los cálculos puntuales de 1 a 10 y
sumarlos. Como los factores son solo dos es lo mismo tener más de una defectuosa que tener menos de 1
que no, por lo tanto, aprovechando esto, calculamos por el inverso.
Sabiendo que ambas probabilidades de eventos al sumarlas me dan uno puede aprovechar esto y realizar:
Distribución hipergeométrica
Dada una población de N elementos, en la cual hay Np elementos que presentan el suceso A y Nq
elementos que no lo presentan. Es decir: Np + Nq = N ( p + q ) = N (Población dicotómica).
Se extraen n elementos sin reposición de dicha población.
Se define la variable aleatoria X como el número de veces que aparece el suceso A en las n extracciones sin
reposición.
Luego X es una variable aleatoria discreta que puede variar entre 0 y n o Np (dependiendo del valor que se
alcance primero). Np + Nq = N (p + q) = N (Población dicotómica)
Describe un fenómeno o experimento con dos resultados posibles, mutuamente excluyentes, en cada una
de las n repeticiones que se realizan. La diferencia fundamental con la distribución binomial radica en que el
modelo hipergeométrica.
Describe un proceso de muestreo sin reposición del elemento previamente extraído, esta es una de las
diferencias con las distribuciones binomiales y es muy importante a la hora de elegir por cual método voy a
resolver un problema.
Otra de las diferencias es que acá no me van a dar de dato la probabilidad de éxito y fracaso, sino la
población éxito y la población fracaso. Si quiero encontrar la p y la q hare las fórmulas que se encuentran
más arriba.
O sea que la probabilidad del "éxito"no es constante de repetición en repetición y en consecuencia los
resultados no son estadísticamente independientes.
También se puede calcular, como en la distribución anterior, la esperanza, la varianza y el desvió.
Fórmulas de uso
b) ¿Cuál es la probabilidad de que dos o más piezas de la muestra sean del proveedor local?
c) ¿Cuál es la probabilidad de que al menos una pieza de la muestra sea del proveedor local?
Vemos que las características de la distribución se asemejan a una distribución hipergeométrica, ya que no
nos dan la probabilidad de éxito ni de fracaso de la variable, pero si elementos con características distintas.
Al tener estos cuatro valores, sabemos que podemos realizarlo con distribución hipergeometrica:
Para que todas sean del proveedor local de las cuatro que elija deben ser cuatro, usamos la fórmula de
distribución puntual:
b) ¿Cuál es la probabilidad de que dos o más piezas de la muestra sean del proveedor local?
Para que todas sean del proveedor local de las cuatro que elija deben ser cuatro, usamos la fórmula de
distribución puntual:
c) ¿Cuál es la probabilidad de que al menos una pieza de la muestra sea del proveedor local?
Recordar que cuando dice “al menos uno” es mayor o igual a 1, o más e uno inclusive.
Para no hacer desde uno hasta cuatro podemos hacer la probabilidad total (1) y sacarle la contraria que seria
que ninguno sea des estado vecino.
Distribución de Poisson
Esta distribución describe múltiples y variadas aplicaciones en campos como biología, física, investigación
operativa, ingeniería de comunicaciones, etc.
Se presenta en forma exacta, con la ocurrencia de un suceso en un espacio continuo.
Sea el promedio de veces que aparece el suceso A en dicho espacio continuo t. Donde λ se mantiene
constante.
Este tipo de distribución se conoce como la distribución de los casos raros, porque tiene muy pocos eventos
en mucha cantidad de casos, por lo que su probabilidad de ocurrencia, es muy pequeña.
Cuando nos dan de dato, la esperanza o promedio de la distribución se ve como un promedio y se realiza una
regla de tres para calcular Lambda, (λ).
Por ejemplo, si me dicen que entran en promedio 2 personas a un local por hora, y me preguntan luego
cuantas entraran por minuto, primero cálculo lambda, haciendo regla de tres: 2 personas----60 min
Si en vez de darme de dato el promedio me dan n y p, como es la esperanza, los multiplico y también obtengo
lambda.
Vemos que la distribución es de Poisson porque me dan un promedio de imperfecciones, está calculada por
milímetro (medida de superficie) y no nos dan la probabilidad de éxito.
Si las preguntas la mantienen por ml, puedo usar esto como lambda, si cambian la unidad la voy a recalcular,
para la misma.
a) Determine la probabilidad de 2 imperfecciones en un milímetro de alambre.
En este punto me cambiaron un milímetro por 5, por lo tanto, hay que volver a recalcular lambda:
P (X≥1), como no puedo hacerlo hacia arriba porque el techo es infinito lo calculo por la contraria:
Esta fórmula no es la de trabajo, por suerte, pero sirve para calcular cada valor puntual de una distribución
continua, conociendo como parámetros su media y desvío poblacional.
Estos cálculos ya fueron realizados y las probabilidades colocadas en tablas o la calcula un software, para
poblaciones estandarizadas de media =0 y desvió =1 (µ=0, δ=1)
Entonces lo más inteligente para no tener que usar esta fórmula, es llevar cualquier población continua a que
tenga esas características, para poder calcular directamente esas probabilidades.
Ese procedimiento se llama estandarización y la distribución que aparece en ese caso se denomina
distribución normal y su símbolo es “Z”.
Esta distribución es simétrica respecto a x = µ. Es decir, es una distribución simétrica, en forma de campana,
con el máximo en el centro (µ) y que cumple que, independientemente del valor de la media y de la
desviación típica, las probabilidades se distribuyen siempre de la siguiente manera:
La distribución normal desempeña un papel muy importante porque es un modelo probabilístico que permite
describir, con un grado de aproximación adecuado para fines prácticos, una gran variedad de fenómenos
biológicos, físicos, antropológicos, etc. y, por otra parte, es la base sobre la que se derivan otras
distribuciones de probabilidad que se emplean en la construcción de intervalos de confianza y en la
docimasia de hipótesis estadísticas.
Una distribución discreta como la binomial, si por ejemplo tenemos un número muy grande de “n” que supere
el límite para poder trabajar con esa distribución, se puede llegar a aproximar a una distribución continua y
trabajar la normal de gauss.
Aproximación de la Binomial
Ejemplo
Los pesos de 2 000 soldados presentan una distribución normal de media 65 kg y desviación típica 8 kg.
Calcula la probabilidad de que un soldado elegido al azar pese:
a) Más de 61 kg.
b) Entre 63 y 69 kg.
c) Menos de 70 kg.
d) Más de 75 kg
Ya me dice que la distribución es normal, pero no está estandarizada porque la media y el desvío no son “0” y
“1” respectivamente, por lo tanto, para sacar cada valor lo tendremos que estandarizar.
a) Más de 61 kg.
Esta es una tabla de distribución normal típica, si se fijan arriba esta “Z” tenemos negativos y positivos y se
trabaja con hasta dos decimales.
b) Entre 63 y 69 kg.
Cuando estoy entre dos valores busco los menores a ambos y los restos entre sí para calcular el área
correspondiente:
Ahora restamos entre sí, para encontrar el área encerrada entre ambas.
P (69<x<63)= (0.6915-0.4013)=0.2902
c) Menos de 70 kg.
d) Más de 75 kg
Distribución X2 (ji-cuadrado)
Sean x1 , x2 ........., xn variables aleatorias continuas, independientes y cada una con distribución normal de
Es una distribución continua, la diferencia con la distribución normal, es que esta no trabaja con valores
negativos, su universo de valores va desde 0 hasta ∞, n es el parámetro que se denomina grados de
libertad.
La función de distribución, f (u) está tabulada para diversos valores del parámetro grados de libertad.
Esperanza matemática: E (x) = n
Variancia: V (x) = 4 .n / 2 = 2 n
Luego, una variable chí cuadrado se la puede definir como la suma de los cuadrados de n variables
aleatorias normales estandarizadas independientes, donde los grados de libertad (n) están dados por el
número de variables que intervienen en su formación.
Esto me permite estandarizar como lo haríamos con la distribución “Z” y buscar los valores de probabilidad
en tablas o similares.
Características de la curva
2 La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un número infinito
de distribuciones X2.
Cálculo de Probabilidad
Este cálculo nos sirve para saber cómo se va a comportar la varianza o desviación estándar en una muestra
que proviene de una distribución normal.
Ejemplos
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una ciudad
grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige al azar una
muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.
Busco el valor para la varianza >2
El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad y se encuentra que a este
Otro ejemplo
Al buscar este número en la tabla o similar de 24 grados de libertad (n-1) nos da un área a la derecha de
Aquí se tienen que buscar los dos valores en el renglón de 24 grados de libertad. Al buscar el valor de 13.846
se encuentra un área a la derecha de 0.95. El valor de 42.98 da un área a la derecha de 0.01. Como se está
pidiendo la probabilidad entre dos valores se resta el área de 0.95 menos 0.01 quedando 0.94.
Distribución t de Student
Esta distribución depende del parámetro n grados de libertad. Tn indica una variable aleatoria con
distribución t de Student con n grados de libertad y t n, ( 1 - n ) el valor particular de la variable aleatoria . A
diferencia de la distribución ji-cuadrado, la t de Student es una función simétrica respecto a t = 0 y su gráfico
es de forma campanular semejante a la curva normal. Además, es una función par, o sea que f (-t) = f (t) por
ser una función simétrica como la “Z”.
Distribución f de Snedecor
Sean las variables aleatorias u y v estadísticamente independientes y con distribución ji-cuadrado con m y n
grados de libertad. Entonces la variable aleatoria F definida como:
Presenta una fdp que se denomina distribución F de Fisher o de Snedecor y se simboliza como: F ~ F m , n
Donde m y n son los parámetros, es decir, los grados de libertad del numerador y denominador,
respectivamente.
El siguiente video explica el manejo de las tablas trabajando con Excel para estadística.
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that you’re
a human (and not a spambot).
C O NT I NU A R
Tema 7 9
4.6 Muestreo
En el muestreo experimental debemos reconocer que, en el proceso del trabajo experimental, es un tema al
que se le otorga una muy reducida atención debido a que el investigador, en la programación de sus tareas,
ubica globalmente toda la parte estadística “a posteriori” de la obtención de las observaciones y obviamente
no es posible pensar en las distintas formas de tomar las muestras, si estas ya fueron tomadas.
Asimismo, en la investigación forestal, muy pocas veces se puede elegir otro tipo de muestreo que no sea el
aleatorio simple, ya que construimos el ensayo con un diseño experimental prefijado. Sin embargo, cuando la
extracción de datos se realiza a partir de una población ya existente sobre la cual es factible componer un
diseño que conlleve a obtener muestras por una simple azarisación, puede y debe estudiarse la situación
para discernir sobre el tipo de muestreo que podría aplicarse.
Inventarios
Usualmente, las poblaciones muestreadas solo son una parte o sub-población tipo, de un total; en tales
casos la inferencia será agronómica, donde asumiremos que la población real será muy semejante a la
subpoblación muestreada.
Ejemplo de esto son los ensayos de orígenes, donde generalmente disponemos de una red de ensayo para
cada unidad regional, sino un único ensayo, sobre el cual inferimos agronómicamente que tal origen se
comportara de similar manera en toda la región. Es decir, hacemos extensivas sus conclusiones a una
mayor área.
Parámetro: es una medida muestral de dispersión o posición estadística que caracteriza a una
población.
Unidad muestral: es una colección de elementos sobre la cual se realiza una inferencia.
Las estimaciones de los parámetros son simples, insesgados y ya conocidos, recordando que para la
fórmula de v ( y) , el término de ajuste para poblaciones finitas puede despreciarse para “n” muy grandes en
relación a la dimensión de la muestra.
En cuanto a la banda de error, se maneja con una probabilidad del 95% que “µ“se encuentre más - menos 2
desvíos estándar.
Por último, es posible determinar el número de unidades requeridas para estimar “µ “(promedio de la
población) para una banda de confianza determinada. Como se puede apreciar es necesario conocer la
varianza o una estimación de la de la misma.
Muestreo estratificado
–
En este muestreo la obtención de elementos se realiza por separado, en grupos o estratos, y en forma
aleatoria, dentro de cada uno de estos.
El tamaño del “ n y “ muestral se puede estimar en forma separada para cada estrato en función de su
tamaño “ n y “ , su varianza g 2Y y el costo de obtener una observación en el estrato iesimo “ ci “ ; si se
asume igualdad de costo puede ser extraído dicho factor de la fórmula de “ neyman “ para el caso de
proporciones el desarrollo es similar “ pst “.
Muestreo en conglomerado
–
Es un simple muestreo al azar sobre las unidades muestrales formadas cada una por un conglomerado, a
su vez constituidos estos por un conjunto de elementos los cuales son censados en los conglomerados
que resultasen sorteados, se recomienda su aplicación ante las siguientes circunstancias:
• Cuando no es posible disponer de un listado de toda la población (marco) o cuando el costo de
obtener el mismo es elevado.
• Cuando el costo de obtener las observaciones se incrementa con las distancias entre las mismas
(por lo que conviene muestrear por grupos o conglomerados).
a) Si se dispone del total de elementos de la población “m” se aplicarán estimadores sesgados, pero de
buen resultado, con número de conglomerados superior a 20 y sus tamaños más o menos uniformes.
b) Si no se dispone del “m “total se aplicara el estimador insesgado.
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that you’re
a human (and not a spambot).
2020 de YouTube.
Bibliografía de referencia
Berenson, M., y Levine, D. M., (1991). Estadística para administración y economía. México: Pearson
Educación.
Saez Castill0, A. J. (2012). Apuntes de estadísticas para Ingenieros. España: Universidad de Jaen.
Conclusiones
En el transcurso de esta materia, estuvimos trabajando con datos extraídos de poblaciones diversas.
Aprendimos a ordenar, registrar y evaluar esos datos, tratándolos con teoría de probabilidad y de
números.
Luego pudimos hacer proyecciones y estimaciones con diferentes variables que fueran de nuestro
interés.
Esperamos que todas estas habilidades adquiridas, les sean de utilidad en adelante.
C O NT I NU A R
Tema 9 9