UNIVERSIDAD NACIONAL DE CAJAMARCA
FACULTAD DE INGENIERIA
ESCUELA ACADEMICO PROFESIONAL DE INGENIERIA CIVIL
TEMA:
TIPO DE DISTRIBUCIÓN: CHI CUADRADO,
DISTRIBUCIÓN F Y T STUDENT
ALUMNOS:
AYALA DIAZ MAYKEL
ESCOBAL GARCIA LUIS ENRIQUE
GARRIDO FERNANDEZ LENIN GIANACARLO
HUAMAN RAMIREZ MANUEL JESUS
MINCHAN ZAVALETA BETZY
NARRO BAZAN CHRISTIAN
QUIJADA ALIAGA ALEXIS
DOCENTE:
DR. VICTOR SANCHEZ CACERES
CURSO:
ESTADISTICA APLICADA
CAJAMARCA, JULIO DEL 2018
CHI CUADRADO
En estadística y estadística aplicada se denomina prueba χ² (pronunciado como «ji
cuadrado» y a veces como «chi cuadrado») a cualquier prueba en la que
el estadístico utilizado sigue una distribución χ² si la hipótesis nula es cierta. Algunos
ejemplos de pruebas χ² son:
La prueba χ² de Pearson, la cual tiene numerosas aplicaciones:
La prueba χ² de frecuencias
La prueba χ² de independencia
La prueba χ² de bondad de ajuste
La prueba χ² de Pearson con corrección por continuidad o corrección de
Yates
La prueba de Bartlett de homogeneidad de varianzas
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La
hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad
totalmente especificada como el modelo matemático de la población que ha generado la
muestra.
Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada
valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A
continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o
intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada
(Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo
de valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias
entre la Oi y Ei y se define como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5.
En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.
Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el
estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancias entre
estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará
la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la
distribución Chi-cuadrado con k-1 grados de libertad.
Para realizar un contraste Chi-cuadrado la secuencia es:
Analizar
Pruebas no paramétricas
Chi-cuadrado
Maykel
EJERCICIO 1:
EJERCICIO 2:
EJERCICIO 3:
Christian
EJERCICIO 4:
EJERCICIO 5:
EJERCICIO 6:
DISTRIBUCIÓN F
Usada en teoría de probabilidad y estadística, la distribución F es una distribución
de probabilidad continua. También se le conoce como distribución F de
Snedecor (por George Snedecor) o como distribución F de Fisher-
Snedecor (por Ronald Fisher).
Una variable aleatoria de distribución F se construye como el siguiente cociente:
donde
U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad
respectivamente, y
U1 y U2 son estadísticamente independientes.
La distribución F aparece frecuentemente como la distribución nula de una prueba
estadística, especialmente en el análisis de varianza. Véase el test F.
La función de densidad de una F(d1, d2) viene dada por
para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la función beta.
La función de distribución es
donde I es la función beta incompleta regularizada.
Alexis
EJERCICIO 1:
EJERCICIO 2:
EJERCICIO 3:
Lucho
EJERCICIO 4:
EJERCICIO 5:
EJERCICIO 6:
T STUDENT
Supóngase que se toma una muestra de una población normal con media y
varianza . Si es el promedio de las n observaciones que contiene la muestra
aleatoria, entonces la distribución es una distribución normal estándar.
2
Supóngase que la varianza de la población es desconocida. ¿Qué sucede con la
distribución de esta estadística si se reemplaza por s? La distribución t proporciona la
respuesta a esta pregunta.
La media y la varianza de la distribución t son = 0y para >2,
respectivamente.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de
la distribución t es similar a la de la distribución normal estándar: ambas son simétricas y
unimodales, y el valor máximo de la ordenada se alcanza en la media = 0. Sin embargo,
la distribución t tiene colas más amplias que la normal; esto es, la probabilidad de las colas
es mayor que en la distribución normal. A medida que el número de grados de libertad
tiende a infinito, la forma límite de la distribución t es la distribución normal estándar.
Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t, está más dispersa que la curva normal estándar z.
3. A medida que aumenta, la dispersión de la curva t correspondiente disminuye.
4. A medida que , la secuencia de curvas t se aproxima a la curva normal
estándar, por lo que la curva z recibe a veces el nombre de curva t con gl =
La distribución de la variable aleatoria t está dada por:
Esta se conoce como la distribución t con grados de libertad.
Sean X1, X2, . . . , Xn variables aleatorias independientes que son todas normales con
media y desviación estándar . Entonces la variable aleatoria tiene una
distribución t con = n-1 grados de libertad.
La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W.
S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que
desaprobaba la publicación de investigaciones de sus empleados. Para evadir esta
prohibición, publicó su trabajo en secreto bajo el nombre de "Student". En consecuencia, la
distribución t normalmente se llama distribución t de Student, o simplemente distribución t.
Para derivar la ecuación de esta distribución, Gosset supone que las muestras se
seleccionan de una población normal. Aunque esto parecería una suposición muy
restrictiva, se puede mostrar que las poblaciones no normales que poseen distribuciones
en forma casi de campana aún proporcionan valores de t que se aproximan muy de cerca
a la distribución t.
La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra
y siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinito las
dos distribuciones serán las mismas.
Se acostumbra representar con el valor t por arriba del cual se encuentra un área igual
a . Como la distribución t es simétrica alrededor de una media de cero, tenemos
; es decir, el valor t que deja un área de a la derecha y por tanto
un área de a la izquierda, es igual al valor t negativo que deja un área de en la
cola derecha de la distribución. Esto es, t0.95 = -t0.05, t0.99=-t0.01, etc.
Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t del
libro Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y Myers.
Lenin
EJERCICIO 1:
EJERCICIO 2:
EJERCICIO 3:
Manuel
EJERCICIO 4:
Se sabe que la resistencia a la compresión promedio de un conjunto de ladrillos es de
180 𝑘𝑔/𝑐𝑚2 . El estudio se hizo en la ciudad de Arequipa con una muestra de 35 ladrillos,
pues estos tuvieron una resistencia a la compresión media de 196.5 𝑘𝑔/𝑐𝑚2 , con una
desviación estándar de 32.12 𝑘𝑔/𝑐𝑚2 . Usando un nivel de significancia del 95%. ¿Este
grupo es significativamente (con respecto a la resistencia a la compresión) de la población
regular?
SOLUCION
Usando el Minitab18.
Abrir MInitab18, luego dirigirse a Estadísticas, Estadísticas Básicas, luego “t de 1 muestra”
Luego nos dirigimos al aparatado de Datos resumidos.
Procedemos a colocar los datos en cada espacio y luego damos aceptar.
T de una muestra
Estadísticas descriptivas
Error
estándar
de la IC de 95% para
N Media Desv.Est. media μ
35 196,50 32,12 5,43 (185,47; 207,53)
μ: media de Muestra
Prueba
Hipótesis nula H₀: μ = 180
Hipótesis alterna H₁: μ ≠ 180
Valor T Valor p
3,04 0,005
CONCLUSION: Como el P-valor es menor que el 𝛼 𝑝 = 0.005 ≤ 𝛼 = 0.05, entonces se
rechaza la hipótesis nula, pues que la resistencia a la compresión promedio
180 𝑘𝑔/𝑐𝑚2 es diferente a la población regular.
EJERCICIO 5:
El diámetro de los aceros producidos por una máquina de la Empresa Aceros Arequipa es
de 0.75 𝑝𝑢𝑙𝑔. Para determinar si la maquina está trabajando de manera adecuada se h
tomado una muestra de 15 aceros en los cuales el espesor medio es 0.785 𝑝𝑢𝑙𝑔. Y la
desviación estándar es 0.045 𝑝𝑢𝑙𝑔. Probar la hipótesis de que la maquina está trabajando
de la forma adecuada con un nivel de significancia del 95%.
SOLUCION
Formulamos las hipótesis
𝐻0 : 𝜇 = 0.05, 𝑙𝑎 𝑚𝑎𝑞𝑢𝑖𝑛𝑎 𝑒𝑠𝑡𝑎 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑛𝑑𝑜 𝑑𝑒 𝑚𝑎𝑛𝑒𝑟𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑑𝑎
𝐻1 : 𝜇 ≠ 0.05, 𝑙𝑎 𝑚𝑎𝑞𝑢𝑖𝑛𝑎 𝑛𝑜 𝑒𝑠𝑡𝑎 𝑡𝑟𝑎𝑏𝑎𝑗𝑎𝑛𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑓𝑜𝑟𝑚𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑑𝑎
De acuerdo con la hipótesis nula se tiene:
𝑋̅ − 𝜇 0.785 − 0.75
𝑡= ∗ √𝑁 − 1 = √15 − 1 = 2.91
𝑠 0.045
Para una prueba a dos colas para un nivel de significación del 0.05, se adopta la siguiente
regla de decisión:
Aceptar la 𝐻0 si “t” se encuentra dentro del intervalo −𝑡0.975 𝑎 𝑡0.975 , el cual para
15 − 1 = 14 grados de libertad es el intervalo −2.14 𝑎 2.14; si no es así, Rechazar
la hipótesis nula:
T de una muestra
Estadísticas descriptivas
Error
estándar
de la IC de 95% para
N Media Desv.Est. media μ
15 0,7850 0,0450 0,0116 (0,7601; 0,8099)
μ: media de Muestra
Prueba
Hipótesis nula H₀: μ = 0,75
Hipótesis alterna H₁: μ ≠ 0,75
Valor T Valor p
3,01 0,009
CONCLUSION: Como 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.009, se rechaza la 𝐻0 a un nivel de significancia del
0.05, entonces la maquina no está trabajando de la forma adecuada.
EJERCICIO 6:
De 25 trabajadores seleccionados de manera aleatoria se registró la cantidad de días que
el año pasado faltaron debido al síndrome del túnel carpiano, relacionado con el trabajo,
los resultados se presentan en la siguiente tabla, Usar los datos para probar la suposición
de normalidad, y si está dispuesto a asumir la normalidad, entonces dar un intervalo del
95% para 𝜇.
SOLUCION
21 23 33 32 37
40 37 29 23 29
24 32 24 46 32
17 29 26 46 27
36 38 28 33 18
Tabla de los días que han faltado.
Usando el MINITAB18.
Colocamos los datos de manera vertical en el MINITAB18
Luego nos vamos al apartado de Estadísticas básicas, y a la opción de Prueba de
Normalidad.
Hallamos la gráfica de la prueba normalidad: Kolmogorov-Smirnov
Como el p-valor = 0.15, entonces se acepta la suposición de normalidad.
Procedemos a hallar los intervalos de confianza para un nivel del 95%
T de una muestra: DIAS
Estadísticas descriptivas
Error
estándar
de la IC de 95%
N Media Desv.Est. media para μ
25 30,80 7,64 1,53 (27,65; 33,95)
μ: media de DIAS
CONCLUSION: los intervalos de confianza a un nivel de significación del 95% es:
𝐼𝐶: (27.65 ; 33.95)
Betzy
EJERCICIO 7:
Las puntuaciones en un test que mide la variable creatividad siguen, en la población
general de adolescentes, una distribución Normal de media 11,5. En un centro escolar que
ha implantado un programa de estimulación de la creatividad una muestra de 30 alumnos
ha proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8, 23, 8, 6, 14, 16, 6, 7, 15, 20,
14, 15.
A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?
SOLUCIÓN:
1º Ho m = 11,5
2º H1 m > 11,5
3º El estadístico de contraste en este caso es:
4º La media muestral es 12,47 y la desviación típica de la muestra es 5,22, sustituyendo en
el estadístico estos valores se obtiene:
5º Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 29 grados
de libertad, el valor que deja por debajo de sí una probabilidad de 0,95, que resulta ser
1,699
6º El valor del estadístico es menor que el valor crítico, por consiguiente, se acepta la
hipótesis nula.
7º La interpretación sería que no hay evidencia de que el programa sea efectivo.
EJERCICIO 8:
En una muestra de 1000 nacimientos el número de varones ha sido 542 ¿Puede
considerarse, con un nivel de significación del 10%, que en general nacen más niños que
niñas?
SOLUCIÓN:
1º La hipótesis nula sería que nacen igual número de niños que de niñas, o lo que es lo
mismo que la proporción de niños nacidos es igual 1/2.
Por consiguiente: Ho P = 0,5
2º H1 P > 0,5
3º El estadístico de contraste es:
4º Como la proporción muestral es 542/1000 = 0,542, sustituyendo se obtiene el valor del
estadístico:
5º Como el contraste es unilateral, buscamos en las tablas de la Normal el valor de la
variable que deja por debajo de sí una probabilidad de 0,9, este valor es 1,282.
6º El valor del estadístico 2,66 es mayor que el valor crítico 1,282 por consiguiente, se
rechaza la hipótesis nula.
7º Efectivamente, nacen en mayor proporción niños que niñas.
EJERCICIO 9:
En una muestra de 66 alumnos se ha calculado el coeficiente de correlación de
Pearson entre sus puntuaciones en el primer parcial de Análisis de Datos y el tiempo que
se emplea en desplazarse desde su domicilio hasta la Facultad, obteniéndose que r vale
0,24. Podemos mantener, con un nivel de confianza del 95%, la idea de que estas variables
son incorreladas, o por el contrario debemos rechazarla.
SOLUCIÓN:
1º Ho r = 0
2º H1 r ¹ 0
3º El estadístico de contraste es:
4º Sustituyendo tenemos:
5º El contraste es bilateral, por ello buscamos en las tablas de la t de Student, con 60 grados
de libertad (el valor más próximo a 64 que figura en nuestras tablas), el valor que deja por
debajo una probabilidad de 0,975 que es 2. Por tanto la región de aceptación será el
intervalo (-2 ,, 2).
6º El valor del estadístico pertenece a la región de aceptación, por consiguiente se acepta
la hipótesis nula.
7º No existe correlación entre ambas variables, de donde se deduce que el tiempo
empleado no influye en la calificación.
EJERCICIO 10:
Los puntajes de un grupo de estudiantes se comportan normal, con promedio de 50, sin
embargo, no se conoce la desviación. Se tomó una m.a de 9 estudiantes encontrando una
varianza de 36 y un promedio de 52. Cuál es la probabilidad de que el promedio:
· Sea mayor de 54?
· Sea menor que 54?
· Esté comprendido entre 48 y 52 puntos?
SOLUCIÓN MANUAL:
Sea X = Puntaje estudiantes.
m = 50 puntos ; s = ?
=52 s2=36 s=6 n=9
a) P( >54)=1- P(t<(54-50)/(6/3)) = 1- P(t<2) = 1- 0.9625 = 0.0375
1-a
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
Como se observa en la tabla, el 2.0 se encuentra entre 1.86 y 2.306, valores que
corresponden a las áreas de 0.95 y 0.975. Realizando una estimación burda, se
promedian los dos valores correspondientes a las áreas. Encontrando que la probabilidad
de que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375.
c) P( <54)= P(t<(54-50)/(6/3)) = P(t<2) = 0.9625. Por el contrario de lo anterior, es muy
probable que el promedio del puntaje de los estudiantes sea menor de 54, dicha
probabilidad equivale al 0.9625.
d) P(48< >52)=P( <52)-P( <48)=P(t<(52-50)/(6/3))-P(t<(48-50)/(6/3))=
P(t<1)- P(t<-1)= 0.825 ?(1-0.825) = 0.65
La probabilidad es de 0.65. Se aprecia que al ser simétrica la distribución t, se calcula la
probabilidad utilizando el inverso.
SOLUCIÓN EXCEL:
Los valores de t, estan diseñados para valores mayores, por eso, se le resta la unidad
cuando se quiere calcular un valor hacia la izquierda, situación diferente a la tabla.
a) P( >54)= P(t>2) = =DISTR.T(2;8;1) = 0.04025
b) P( <54)= P(t<2)= (1 - =DISTR.T(2;8;1)) = 0.95975
c) P(48< >52)= P( <52)-P( <48) = P(t<1)-P(t<-1)=
(1 - =DISTR.T(1;8;1))- =DISTR.T(1;8;1))
= (1 - 0.1732.97) ? 0.173297 = 0.6534
EJERCICIO 11:
Una muestra aleatoria de 10 focos del ciclo medio de vida es de 4600 horas con
una desviación estándar muestral de 250hrs.
El ciclo medio de vida y la desviación estándar de una muestra del tamaño de 8
focos de otra marca son 4000 horas y desviación estándar muestral 200hrs. Se supone
que los ciclos de vida de ambas marcas tienen una distribución normal.
Construya el intervalo de confianza del 90% para estimar la diferencia entre el
ciclo medio de vida entre las dos marcas de focos.
𝑛1 = 10
𝑥̅ = 4600hrs
S= 250hrs
𝑛2 = 8 Gráfica de distribución
T. df=16
𝑥̅ = 4000 ℎ𝑟𝑠 0,4
𝑆 = 200ℎ𝑟𝑠 0,3
𝑔𝑙 = 𝑛1 + 𝑛2 − 2
Densidad
0,2
gl= 10 + 8 – 2 = 16
0,1
1 - .90= .10
0,025 0,025
0,0
. 10 -2,12 0
X
2,12
= .05
2
𝐼𝑐𝛼 = (𝑥̅ 1 − 𝑥̅ 2) ± 𝑡𝜎𝑥̅ 1 − 𝑥̅ 2
𝐼𝑐90% = (4600 − 4000)1.746(108.84)
𝐿𝑠 = 600 + 190.03 = 790.03
𝐿𝑖 = 600 − 190.03 = 409.97
(409,790)
(n1 − 1)S12 + (𝑛2 − 1)𝑆22
𝜎2 =
n1 + 𝑛2 − 2
(9)2502 + (7)2002
𝜎2 =
10 + 8 − 2
(9)62500 + (7)40000
𝜎2 =
16
562500 + 280000
𝜎2 =
16
842500
𝜎2 =
16
𝜎 2 = 52656.25
𝑆12 𝑆22
𝑆𝑥̅1 − 𝑥̅2 = √ +
𝑛1 𝑛2
Gráfica de distribución
T. df=16
0,4
52656 52656
0,3 𝑆𝑥̅1 − 𝑥̅2 = √ +
10 8
Densidad
0,2
𝑆𝑥̅1 − 𝑥̅2 = √5265.6 + 6582
0,1 𝑆𝑥̅1 − 𝑥̅2 = √11847.6
0,025 0,025 𝑆𝑥̅1 − 𝑥̅2 = 108.846
0,0
-2,12 0 2,12
X