PROFESORA: ROSA VIRGINIA
HERNÁNDEZ
William Sealy Gosset (11 de junio de 1876 – 16 de octubre de 1937) fue
un estadístico, mejor conocido por su sobrenombre literario Student.
Nacido en Canterbury, hijo de Agnes Sealy Vidal y el coronel Frederic
Gosset, asistió a la famosa escuela privada Winchester College, antes de
estudiar química y matemática en el New College de Oxford. Tras
graduarse en 1899, se incorporó a las destilerías Guinness en Dublín.
Guinness era un negocio agroquímico progresista y Gosset podría aplicar
sus conocimientos estadísticos tanto a la destilería como a la granja para
seleccionar las mejores variedades de cebada. Gosset adquirió ese
conocimiento mediante estudio, prueba y error así como pasando dos
temporadas durante 1906/7 en el laboratorio bioquímico de Karl Pearson.
Gosset y Pearson tenían una buena relación y este último ayudó a
Gosset con la matemática de sus artículos. Pearson contribuyó a los
artículos de 1908, pero no apreció lo suficiente su importancia. Los
artículos se referían a la importancia de las pequeñas muestras para la
destilería, mientras que el biólogo disponía normalmente de cientos de
observaciones y no veía la urgencia en el desarrollo de métodos basados
en unas pocas muestras.
Otro investigador de Guinness había publicado
anteriormente un artículo que contenía secretos
industriales de la destilería. Para evitar futuras
exposiciones de información confidencial, Guinness
prohibió a sus empleados la publicación de artículos
independientemente de la información que
contuviesen. Esto significaba que Gosset no podía
publicar su trabajo usando su propio nombre. De
ahí el uso de su pseudónimo Student en sus
publicaciones, para evitar que su empleador lo
detectara. Por tanto, su logro más famoso se
conoce ahora como la distribución t de Student, que
de otra manera hubiera sido la distribución t de
Gosset.
Teoría de pequeñas muestras
En probabilidad y estadística, la distribución-t o distribución t de Student
es una distribución de probabilidad que surge del problema de estimar la
media de una población normalmente distribuida cuando el tamaño de la
muestra es pequeño.
A la teoría de pequeñas muestras también se le llama teoría exacta del
muestreo, ya que también la podemos utilizar con muestras aleatorias de
tamaño grande.
Veremos un nuevo concepto necesario para poder entender la distribución t
Student. Este concepto es "grados de libertad".
Para definir grados de libertad se hará referencia a la varianza muestral:
𝑛 2
σ𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠2 =
𝑛−1
𝑛 2
2
σ𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠 =
𝑛−1
Esta fórmula está basada en 𝑛 − 1 grados de libertad. Esta terminología resulta
del hecho de que si bien la varianza muestral 𝑠 2 está basada en 𝑛 cantidades:
𝑥1 − 𝑥,ҧ 𝑥2 − 𝑥,ҧ … , 𝑥𝑛 − 𝑥ҧ estas suman cero
Así que especificar los valores de cualquier 𝑛 − 1 de las cantidades determina el
valor restante.
Por ejemplo, si 𝑛 = 4 y 𝑥1 − 𝑥ҧ = 8; 𝑥2 − 𝑥ҧ = −6 y 𝑥4 − 𝑥ҧ = −4, entonces
automáticamente tenemos 𝑥3 − 𝑥ҧ = 2 , así que sólo tres de las cuatro medidas
de 𝑥𝑖 − 𝑥ҧ están libremente determinadas, la otra debe tomar el valor que haga
esta suma cero; por esto que solo tenemos 3 grados de libertad.
grados de libertad (gl) = número de mediciones - 1
DISTRIBUCIÓN DE PROBABILIDAD
T-STUDENT
Una variable aleatoria se distribuye según el modelo de probabilidad t o T de
Student con k grados de libertad, donde k es un entero positivo, si su
función de densidad es la siguiente:
La gráfica de esta función de
densidad es simétrica,
respecto del eje de
ordenadas, con independencia
del valor de k, y de forma algo
semejante a la de una
distribución normal:
La distribución t de Student se construye como un cociente entre una normal y la raíz de
una Shi cuadrado independientes. De modo preciso, llamamos distribución t-Student con n
2
𝜒𝑛
grados de libertad, a la de una v. a. 𝑡𝑛 al cociente 𝑛
Esta distribución t-Student tiene:
Una media igual a cero y su varianza
se obtiene mediante la relación del
tamaño de la muestra sobre n-2
grados de libertad con n>2.
La distribución t-Student tiende a
una normal con media cero y
desviación típica 1 en el caso que
aumentan los grados de libertad.
Importancia de esta distribución
Si 𝑋ത Y 𝑆 son la media y la desviación típica de una muestra de tamaño 𝑁 extraída de una
población normal 𝜇, 𝜎 2 , el estadístico:
ത
𝑋−𝜇
se va a comportar como una distribución ~𝑡𝑁−1 es un estadístico que nos relaciona
𝑠Τ 𝑁
con la media muestral con la media poblacional
PARA CALCULAR LA ESTIMACIÓN POBLACIONAL µ DE MUESTRAS PEQUEÑAS 𝒏 < 𝟑𝟎
𝑠 Se calcula la estimación del intervalo:
𝑠
𝑥ҧ ± 𝑡∝ൗ Donde 𝑡∝Τ se le conoce como “margen de error”
2 𝑛 2 𝑛
APRÉCIESE LA ANALOGÍA ENTRE
ത
𝑋−𝜇 ത
𝑋−𝜇
~𝑁(0,1) y ~𝑡𝑁−1
𝜎/ 𝑁 𝑆/ 𝑁
Si la desviación típica poblacional entre la relación típica muestral.
El estadístico con 𝑁 poblacional se comporta como una normal (0,1) y en el otro caso, se
comporta una t-Student con N-1 grados de libertad.
Pero para manejar el estadístico de la izquierda debemos conocer la desviación típica de la
población, lo cual no sucede habitualmente.
Por ello nos basta sustituir la desviación típica poblacional por la desviación típica muestral
y el estadístico pasa a ser una distribución t-Student.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia
general de la distribución t es similar a la de la distribución normal estándar:
ambas son simétricas y unimodales, y el valor máximo de la ordenada se
alcanza en la media μ = 0. Sin embargo, la distribución t tiene colas más
amplias que la normal; esto es, la probabilidad de las colas es mayor que en
la distribución normal. A medida que el número de grados de libertad tiende a
infinito, la forma límite de la distribución t es la distribución normal estándar.
PROPIEDADES DE t-STUDENT
1. Es una distribución continua
2. La distribución t tiene una media de cero, es simétrica respecto de la
media y se extiende de −∞ a +∞ la varianza de t para 𝑛 > 2. Cuando
los grados de libertad son suficientemente grandes la varianza de la
distribución t tiende a 1.
3. Tiene forma acampanada y simétrica
4. No hay una distribución t, sino una “familia” de distribuciones t. Todas
con la misma media cero, pero con su respectiva desviación estándar
diferente de acuerdo al tamaño de la muestra. Existe una distribución t
para una muestra de 20, otra para una muestra de 22, y así
sucesivamente.
5. La distribución t es mas ancha y más plana en el centro que la
distribución normal estándar como resultado de ello se tiene una mayor
variabilidad en las medias de muestras calculadas a partir de muestras
pequeñas. Sin embargo, a medida que aumenta el tamaño de la
muestra, la distribución t se aproxima a la distribución normal estándar.
Por ejemplo:
El valor de 0,58439 corresponde al valor de t-student que tiene 3 gl y que deja a la
izquierda el 70% de probabilidad
El valor de 5,84084 a la t-student con 3 gl y que deja a la izquierda el 0,995 de
probabilidad.
TABLA t-STUDENT
A DOS COLAS
EJEMPLO 1: Una máquina llenadora de bolsas de naranjas obtiene un valor t talque la
probabilidad de que una t de Student con 14 gl sea un valor absoluto mayor que t y sea
igual al 5%.
Al obtener un valor t
tal que la
probabilidad , de que
una t –Student con
14 gl y un ∝= 0,05
(una cola) luggo
∝Τ = 0,025
2
[Link]
𝒏 = 𝟏𝟓
𝝁 = 𝟐𝟎𝟎𝟎 𝝈
Sea una empresa que fabrica tornillos para una multinacional reconocida en Colombia,
dicha compañía afirma que sus productos tienen un promedio de 25 horas de
elaboración. Para mantener este promedio se prueban 16 tornillos cada mes, entonces si
el valor t calculado cae entre 𝑡−0,01 y 𝑡0,01 la empresa queda satisfecha con su
afirmación. ¿Qué conclusiones debería sacar la empresa a partir de una muestra que
tiene una media de 27,5 horas y una desviación estándar de 5 horas?
DATOS QUE PASO 1: Defino las hipótesis PASO 2: Calculamos estadístico
CONOCEMOS 𝐻0 = 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎 → 𝜇 = 25 de prueba t-student con la
𝐻𝑎 = 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑎𝑙𝑡𝑒𝑟𝑛𝑎 → 𝜇 ≠ 25 fórmula:
𝜇 = 25 ℎ𝑜𝑟𝑎𝑠
𝑛 = 16 𝑡𝑜𝑟𝑛𝑖𝑙𝑙𝑜𝑠 NOTA: Si DEMOSTRAMOS QUE EL 𝑋ത − 𝜇 27,5 − 25
𝑋ത = 27,5 ℎ𝑜𝑟𝑎𝑠 VALOR 𝑡 SE ENCUENTRA EN LA SONA DE 𝑡= 𝑠 = =2
5
𝑠 = 5 ℎ𝑜𝑟𝑎𝑠 ACEPTACIÓN DEL 99% SE ACEPTA LA 𝑛 16
𝑔𝑙 = 𝑛 − 1 = 15 HIPÓTEIS NULA.
∝= 0,01 = 1%
PASO 3: Buscamos en la tabla el
valor de t-student con gl=15 y un
nivel de confianza del 99% (o nivel
de significancia del 0,01).
Como es a 2 colas se calcula un ∝=
0,01
= 0,005
2
Obtenemos un t-student de
± 2,6025
PASO 4: Se determina si estamos
o rechazamos nuestras
hipótesis. CONCLUIMOS
𝐻0 : 𝜇 = 25
𝐻𝑎 : 𝜇 ≠ 25 t Cómo el estadístico de prueba 2 < 2,6025
estadístico Quiere decir que se encuentra en la región
de aceptación.
Se acepta la Ho
Es decir:
Existe una confiabilidad de un 99% que
demuestra que el promedio de horas es
igual a 25 ratificando la afirmación de la
empresa.
El valor crítico se encuentra dentro del
intervalo de:
-2,6025< 𝑥 < 2,6025
Recordemos que el estadístico de
prueba es 2.
DATOS QUE
Un fabricante de cigarrillos anuncia CONOCEMOS
que su producto tiene un promedio
de 1,83 mg de nicotina. 𝜇 = 1,83 𝑚𝑔
Si una muestra aleatoria de 8 𝑛=8
cigarrillos de éste tipo tiene 𝑋ത = 1,95
contenidos de nicotina con valor de: 𝑠 = 0,19
2, 1.7, 2.1, 1.9, 2.2, 2.1, 2 y 1.6 𝑔𝑙 = 𝑛 − 1 = 7
¿Estaría de acuerdo en la publicidad
del fabricante? Considere un nivel de
significancia del 0,05
PASO 1: Defino las hipótesis PASO 2: Calculamos el estadístico
𝐻0 = 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑛𝑢𝑙𝑎 → 𝜇 = 1,83 de prueba t-student con la
𝐻𝑎 = 𝐻𝑖𝑝ó𝑡𝑒𝑠𝑖𝑠 𝑎𝑙𝑡𝑒𝑟𝑛𝑎 → 𝜇 ≠ 1,83 fórmula:
NOTA: Si DEMOSTRAMOS QUE EL VALOR 𝑡 SE
ENCUENTRA DENTRO DE LA SONA DE ACEPTACIÓN DEL 𝑋ത − 𝜇 1,95 − 1,83
𝑡= 𝑠 = = 1,71
95% SE ACEPTA LA HIPÓTEIS NULA. 0,19
𝑛 8
PASO 3: Buscamos en la tabla el PASO 4: Se determina si estamos CONCLUIMOS
valor de t-student con gl=7 y un de acuerdo en la publicidad del
nivel de confianza del 95% (o nivel
fabricante (es aceptar la Se acepta la Ho es
de significancia del 0,05). hipótesis nula 𝐻𝑜 ). Se analiza en decir:
Como es a 2 colas se calcula un ∝=
donde cae el estadístico de El fabricante tiene
0,05
= 0,025 prueba (t=1,71). Si dentro del la razón y estamos
2
Intervalo de confianza (IC=95%) de acuerdo en un
BUSCO EN LAS TABLAS O UTILIZO EL para aceptar la 𝐻𝑜 . Como 1,71 95% de confianza
STATKEY es menor a 2,365 debido a que el
valor de t=1,71 cae
dentro del índice de
Zona de confiabilidad y sus
aceptación t=1,71 cigarrillos tienen un
promedio de 1,83
mg de nicotina
∝/2 ∝/2
Estimar la media en el adeudo de las tarjetas de crédito en la población de familias de
Colombia. No se cuenta con la desviación típica poblacional, pero se tienen datos
muestrales que deberán usarse para estimar la media poblacional como la desviación
estándar poblacional teniendo en cuenta un intervalo de confiabilidad correspondiente al
95%.
9430 7535 4078 5604 5179 4416
10676 1627 10112 6567 13627 18719
14661 12195 10544 13659 7061 6245
13021 9719 2200 10746 12744 5742
SOLUCIÓN
Se le denomina
PASO 1: Con los datos de la tabla se calcula: estimación de la
𝑛 = 24 desviación estándar
σ𝑛 σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 de la población
𝑖=1 𝑥𝑖
𝑥=
ҧ = $9004,46 𝜎ෝ = 𝑠 = = $4284,44
𝑛 𝑛−1
PASO 2: Se calcula la distribución t-student a dos colas porque se espera calcular un
intervalo de confianza para estimar el valor de 𝜇.
𝑛 = 24 𝑔𝑙 = 𝑛 − 1 = 24 − 1 = 23 IC = 95% ∝= 0,05 luego ∝ൗ = 0,025
2
𝑇23 = ±2,0687
La estimación del intervalo es:
𝑠
𝑥ҧ ± 𝑡∝ൗ
2 𝑛
𝑠
𝑑𝑜𝑛𝑑𝑒 𝑒𝑠 𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑛
Reemplazo:
4284,44
9004,96 ± 2,0687
24
Margen de
error
9004,46 ± 1809,20
PASO 3: La estimación puntual de la media muestral es $9004,46 el margen de error es de
$1809,20 y el intervalo de confianza de 95% va de:
90004,46 − 1809,20 < µ < 9004,46 + 1809,20
Concluimos: que con un 95% de confianza la media de los saldos en las tarjetas de
crédito de la población de todas las familias está entre:
$7195,26 y $10,813
TALLER
1. Un fabricante de foco afirma que su producto durará un promedio de 500 horas de
trabajo. Para conservar este promedio verifica 25 focos cada mes. Si el valor y calculado
cae entre −0,005 < 𝑥 < 0,005 , él fabricante se encuentra satisfecho con esta
afirmación. ¿Qué conclusión deberá sacar de una muestra de 25 focos cuya duración
fue:
520 521 511 513 510
513 522 500 521 495
496 488 500 502 512
510 510 475 505 521
506 503 487 493 500
Graficar la Campana de Gauss indicando los valores de ∝, 𝑡 − 𝑠𝑡𝑢𝑑𝑑𝑒𝑛𝑡 , el
estadístico de prueba, la zona de aceptación con su intervalo de confianza y la
zona de rechazo.
TALLER
2. El gerente de producción de una fábrica de jugos de naranja está preocupado debido a
que los calores de los últimos 3 meses han estado dañando 2500 naranjos en la finca. Con el
fin de determinar el grado de daño ocasionado a los árboles , el gerente ha recogido una
muestra de número de naranjas producidas por cada árbol, de un total de 42 naranjos y
encontró que la producción promedio muestral fue de 525 naranjas por árbol con una
desviación estándar de 30 naranjas por árbol. Si el valor calculado cae entre −0,005 < 𝑥 <
0,005, él gerente se encuentra satisfecho con esta afirmación. ¿Qué conclusión deberá sacar
el gerente de la producción de naranjos en la finca?
3. Una empresa adquirió recientemente una carga de camión de 1500 cajas de 24 onzas
cada una de cereal para el desayuno. Una muestra aleatoria de 57 de estas cajas reveló
un peso neto promedio de 23,2 onzas y una desviación estándar de 0,3 onzas.
a) Estime la desviación estándar de la población
b) Estime el error estándar de la media para esta población
c) ¿Cuáles son los límites inferior y superior del intervalo de confianza para el peso
neto medio, dado que se quiere un nivel de confianza de 0,95?
TALLER
4. El administrador de un hotel desea conocer el registro diario promedio de la temporada.
La siguiente tabla presenta el número de huéspedes registrados durante cada uno de 27
días elegidos aleatoriamente con una confiabilidad del 95%.
61 57 53 60 64 57 54 58 63
59 50 60 60 57 58 62 63 60
61 54 50 54 61 51 53 62 57
5. Con el problema de la pandemia del COVID-19, los accionistas de petróleo en Estados
Unidos se preocuparon por la forma en que las pérdidas resultantes en los ingresos
(estimado en aproximadamente $100 millones por cada disminución de un dólar en el
precio del barril) afectarían sus presupuestos. La directiva de los accionistas creyó que la
situación no sería crítica en tanto pudieran estar razonablemente seguros de que el precio
permanecerá por encima de los $18 por barril. Encuestaron a 13 economistas
especializados en el mercado del petróleo, elegidos aleatoriamente, y les pidieron que
predijeran qué tanto bajarían los precios antes de repuntar. Las 13 predicciones se
promediaron $21,60, con una desviación estándar de $4,65. A un nivel ∝= 0,01.
¿Es la predicción promedio significativamente mayor que $18? ¿Debería la directiva de
accionistas concluir que es improbable una crisis presupuestaría? Explique su respuesta.
GRACIAS