UNIVERSIDAD NACIONAL AGRARIA
DE LA SELVA
FACULTAD DE INGENIERÍA DE INDUSTRIAS
ALIMENTARIAS
DISTRIBUCIÓN CONTINUA:
- Distribución F
- Distribución chi cuadrada
Integrantes:
CASTRO LOZANO, Brigith
ESPINAL ANTAY, Karina
PINCHI BENANCIO, Linda
ROJAS MODESTO, Carol
PROMOCIÓN 2015
Tingo María – Perú
201
I. INTRODUCCIÓN
En teoría de la probabilidad una distribución de probabilidad se
llama continua si su función de distribución es continua. Puesto que la
función de distribución de una variable aleatoria X viene dada por:
FX)=P (X<X), la definición implica que en una distribución de
probabilidad continua X se cumple P [X = a] = 0 para todo número real
a, esto es, la probabilidad de que X tome el valor a es cero para
cualquier valor de a. Si la distribución de X es continua, se llama a X
variable aleatoria continua.
En las distribuciones de probabilidad continuas, la distribución
de probabilidad es la integral de la función de densidad
Mientras que en una distribución de probabilidad discreta un
suceso con probabilidad cero es imposible, no se da el caso en una
variable aleatoria continua. Por ejemplo, si se mide lo largo de una hoja
de roble, el resultado 3,5 cm no es posible, pero tiene probabilidad uno
porque hay infinitos valores posibles entre 3 cm y 4 cm. Cada uno de
esos valores individuales tiene probabilidad cero, aunque la
probabilidad de ese intervalo no lo es. Esta aparente paradoja no se
resuelve por el hecho de que la probabilidad de que X tome algún valor
en un conjunto infinito como un intervalo, no puede calcularse
mediante la adición simple de probabilidades de valores individuales.
Formalmente, cada valor tiene una probabilidad infinitesimal que
estadísticamente equivale a cero.
II. OBJETIVOS
Conocer las distribuciones de probabilidad de variable continua.
Aplicación y uso de las distribuciones F y chi cuadrado en
nuestra carrera y otras áreas.
III. MARCO TEORICO
3.1. Distribución F de Fisher-Snedecor: Es una distribución
continúa de muestreo de la relación de dos variables aleatorias
independientes con distribuciones de chi-cuadrada, cada una
dividida entre sus grados de libertad. La distribución F es
asimétrica a la derecha y es discreta por los grados de libertad
de su numerador (v1) y denominador (v2). Las siguientes
gráficas muestran el efecto de los diferentes valores de grados
de libertad en la forma de la distribución.
Según se ha visto, en algunas aplicaciones es importante
conocer la distribución muestral de la diferencia entre las
Medias (𝑋̅1 − 𝑋̅2) de dos muestras. De igual manera, algunas
veces se necesita la distribución muestral de la diferencia entre
varianzas 𝑆̅12 − 𝑆̅22. Sin embargo, resulta que esta distribución
es bastante complicada. Debido a ello, se considera el
estadístico 𝑆̅12 / 𝑆̅22 ya que un cociente grande o pequeño
indica una gran diferencia, en tanto que un cociente cercano a 1
indica una diferencia pequeña. En este caso se puede
encontrar una distribución muestral a la que se le conoce como
distribución F en honor a R. A. Fischer.
Más precisamente, supóngase que se tienen dos muestras, 1 y
2, de tamaños N1 y N2, respectivamente, obtenidas de dos
poblaciones normales (o casi normales) cuyas varianzas son
𝜎̅12 y 𝜎̅22. Sea el estadístico.
𝑆12 /𝜎12 𝑁1 𝑆12 (𝑁1 − 1)𝜎12
F= =
𝑆22 /𝜎22 𝑁2 𝑆22 (𝑁2 − 1)𝜎22
Donde:
𝑁1 /𝑆12 𝑁2 /𝑆22
𝑆12 = 𝑆22 =
𝑁1 − 1 𝑁2 − 1
Entonces a la distribución muestral de F se le llama distribución
F de Fisher, o simplemente distribución F, con 𝑣1 = 𝑁1 − 1 y
𝑣2 = 𝑁2 − 1 grados de libertad. Esta distribución está dada por:
𝑣1
𝐶𝐹 ( 2 )−1
Y=
(𝑣1 𝐹 + 𝑣1 )(𝑣1 + 𝑣1 )/2
Donde:
C: Constante que depende de ν1 y ν2, de manera que el área
total bajo la curva sea 1. Esta curva tiene una forma similar a la
de las curvas que se muestran en la figura 2, aunque esta
forma puede variar de manera notable de acuerdo con los
valores de 𝑣1 y 𝑣2
Figura 1: La línea
continua representa la
distribución F con 4 y 2 grados
de libertad, y la línea punteada
representa la distribución F con 5
y 10 grados de libertad.
Ejemplo 1: Coca contra Pepsi El conjunto de datos 12 del
apéndice B incluye los pesos (en libras) de muestras de Coca
clásica y Pepsi clásica. Los estadísticos muestrales se resumen
en la tabla adjunta. Utilice un nivel de significancia
0.05 para probar la aseveración de que los pesos de Coca
clásica y los pesos de Pepsi clásica tienen la misma desviación
estándar.
Solución:
Requisito: En primer lugar, es evidente que las poblaciones son
independientes entre sí. Los valores muestrales no están
apareados o asociados de ninguna forma. En segundo lugar,
las muestras sugieren que provienen de una población con una
distribución aproximadamente normal. Consulte el párrafo
anterior a este ejemplo y observe la gráfica cuantilar normal y el
histograma de los 36 pesos de Coca-Cola clásica. Los 36 pesos
de Pepsi clásica se podrían explorar con una gráfica cuantilar
normal y un histograma, y los resultados sugerirían que estos
pesos provienen de una población con distribución normal. Los
requisitos se cumplen y podemos continuar con la prueba.
En vez de utilizar las desviaciones estándar muestrales para
probar la aseveración de desviaciones estándar poblacionales
iguales, utilizamos las varianzas muestrales para probar la
aseveración de varianzas poblacionales iguales, pero podemos
plantear conclusiones en términos de desviaciones estándar.
Puesto que estipulamos en esta sección que la varianza mayor
se denota por S12, permitimos que S12 = 0.0075072, n1 = 36, S22
= 0.0057012 y n2 = 36. Ahora procedemos a utilizar el método
tradicional de prueba de hipótesis.
Paso 1: La aseveración de desviaciones estándar iguales es
equivalente a una aseveración de varianzas iguales, lo cual se
expresa simbólicamente como 𝜎12 = 𝜎22 .
Paso 2: Si la aseveración original es falsa, entonces 𝜎12 ≠ 𝜎22 .
Paso 3: Puesto que la hipótesis nula es la afirmación de
igualdad y dado que la hipótesis alternativa no puede contener
igualdad, tenemos:
𝐻0 : 𝜎12 = 𝜎22 (aseveración original) 𝐻0 : 𝜎12 ≠ 𝜎22
Paso 4: El nivel de significancia es ∝ = 0.05.
Paso 5: Puesto que esta prueba implica dos varianzas
poblacionales, utilizamos la distribución F.
Paso 6: El estadístico de prueba es
𝑆12 0.0075072
F= = = 1.7339
𝑆22 0.0057012
En cuanto a los valores críticos, primero observe que se trata
de una prueba de dos colas con 0.025 en cada cola. En tanto
que estamos estipulando que la varianza más grande se coloca
en el numerador para el estadístico de prueba F, necesitamos
encontrar sólo el valor crítico de cola derecha. En la tabla de A-
5 vemos que el valor crítico de F está entre 1.8752 y 2.0739,
que obtenemos al remitirnos a 0.025 en la cola derecha, con 35
grados de libertad para el numerador y 35 grados de libertad
para el denominador (STATDISK y Excel dan un valor crítico de
1.9611)
- Inferencias a partir de dos muestras.
Figura 2: Distribución de
𝑆12 /𝑆12para
pesos de Coca-Cola
clásica y Pepsi clásica
Paso 7: La figura 2 indica que el estadístico de prueba
F = 1.7339 no se localiza dentro de la región crítica, por lo
tanto, no rechazamos la hipótesis nula de varianzas iguales. Se
deduce que no existe evidencia suficiente para sustentar el
rechazo de la aseveración de desviaciones estándar iguales.
INTERPRETACIÓN: No existe suficiente evidencia para
justificar el rechazo de la aseveración de que las dos
desviaciones estándar son iguales. Sin embargo, debemos
reconocer que la prueba F es sumamente sensible a
distribuciones que no son normales, de manera que podría
parecer que esta conclusión indica que no existe una diferencia
significativa entre las desviaciones estándar poblacionales,
cuando realmente existe una diferencia que quedó oculta
debido a distribuciones no normales.
El valor de 0.7901 de Coca es un valor extremo potencial,
especialmente porque su puntuación z es -3.56. Si repitiéramos
la prueba sin este valor cuestionable, concluiríamos una vez
más que no existe una diferencia significativa entre las dos
desviaciones estándar poblacionales. Los métodos alternativos
que se analizan más adelante en esta sección también nos
conducen a la conclusión de que no existe una diferencia
significativa entre las dos desviaciones estándar poblacionales.
Ahora utilicemos un poco de sentido común básico. Sabemos
que las latas de Coca y Pepsi provienen de dos procesos de
fabricación completamente separados e independientes, de
manera que es poco probable que las dos varianzas
poblacionales sean exactamente iguales. No obstante, con
base en nuestro análisis, podemos concluir que cualquier
diferencia entre las dos desviaciones estándar poblacionales no
es significativa.
En el ejemplo anterior utilizamos pruebas de dos colas para la
aseveración de varianzas iguales. Una prueba de cola derecha
produciría el mismo estadístico de prueba F = 1.7339, pero un
valor crítico de F diferente.
3.2. Distribución Chi-cuadrada: La prueba X2 (Chi-cuadrada) es
considerada como una prueba no paramétrica que mide la
discrepancia entre una distribución observada y otra teórica (o
esperada), indicando en qué medida las diferencias existentes
entre ambas, y de haberlas, se deben al azar en el contraste de
hipótesis. También se utiliza para probar la independencia de
dos variables entre sí, mediante la presentación de los datos en
tablas de contingencia.
Esta prueba puede utilizarse incluso con datos medibles en una
escala nominal. La hipótesis nula de la prueba Chi-cuadrado
postula una distribución de probabilidad totalmente especificada
como el modelo matemático de la población que ha generado la
muestra.
𝑘
2
(𝑂𝑏𝑠𝑖 − 𝐸𝑥𝑝𝑖 )2
𝑥 =∑
𝐸𝑥𝑝𝑖
𝑖=1
Ejemplo 1:
Se realiza una encuesta a 400 personas de acerca de qué
productos derivados de lácteos prefieren consumir. Teniendo un
nivel de confianza del 95%; los resultados obtenidos se muestran
en la siguiente tabla:
MUJERES VARONES TOTAL
QUESO 96 54 150
YOGURT 123 27 150
BEBIBLE
YOGURT 81 19 100
CREMOSO
TOTAL 300 100 400
PASO 1: FORMULACIÓN DE HIPÓTESIS
H0: La mayoría prefiere consumir yogurt cremoso.
H1: Que hombres y mujeres prefieren consumir más el
queso y yogurt bebible.
PASO 2: GRADO DE LIBERTAD
La tabla posee:
3 filas y 2 columnas
(F-1).(C-1) = (3-1).(2-1)
= (2).(1) 2
PASO 3: CÁLCULO DE LA DE LA FRECUENCIA
ESPERADA
300 ∗ 150 100 ∗ 150
𝑒1 = = 112.5 𝑒4 = = 37.5
400 400
300 ∗ 150 100 ∗ 150
𝑒2 = = 112.5 𝑒5 = = 37.5
400 400
300 ∗ 100 100 ∗ 100
𝑒3 = = 75 𝑒6 = = 25
400 400
MUJERES VARONES TOTAL
QUESO 96 (112.5) 54(37.5) 150
YOGURT 123(125.5) 27(37.5) 150
BEBIBLE
YOGURT 81 (75) 19(25) 100
CREMOSO
TOTAL 300 100 400
Fórmula de la chi-cuadrada:
𝑘
2
(𝐹 − 𝐹𝑡 )2
𝑥 =∑
𝐹𝑡
𝑖=1
(3)(2) = 6 posibles combinaciones en la tabla
Casillas O E (O-E) (O-E)^2 (O − E)^2
(x,y) E
V-queso 96 112.5 -16.5 227.25 2.42
M-queso 54 37.5 16.5 227.25 7.26
V-Yogurt B. 123 112.5 10.5 110.25 0.98
M-Yogurt B. 27 37.5 -10.5 110.25 2.94
V-Yogurt C. 81 75 6 36 0.48
M-Yogurt C. 19 25 -6 36 1.44
𝑘
2
𝑥 = ∑ → 15.52
𝑖=1
H0: No hay relación entre género y productos.
HA: Hay relación entre género y productos.
Nivel de Significancia o grados de libertad (gl): (3-1)(2-1) = 2
IV. CONCLUSIÓN
Lo importante que logramos desarrollar en este trabajo
realizado; fue demostrar cómo usar las dos distribuciones en
diferentes áreas.
Y aplicando en nuestra especialidad sería cuando queremos
por ejemplo realizar una encuesta para saber los gustos y
preferencias de las personas con respecto a productos que
elaboramos en nuestra carrera de Ingeniería en Industrias
Alimentarias.