Distribución T de Student
En probabilidad y estadística, la distribución - t o distribución t de Student es
una distribución de probabilidad que surge del problema de estimar la media de
una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.
A la teoría de pequeñas muestras también se le llama teoría exacta del
muestreo, ya que también la podemos utilizar con muestras aleatorias de
tamaño grande.
Veremos un nuevo concepto necesario para poder entender la distribución t
Student. Este concepto es "grados de libertad".
Para definir grados de libertad se hará referencia a la varianza maestral:
n
(xi x) 2
i 1
s2
n1
Esta fórmula está basada en n-1 grados de libertad. Esta terminología resulta
del hecho de que si bien s2 está basada en n cantidades
x1 x, x2 x,...xn x , éstas suman cero, así que especificar los valores
de cualquier n-1 de las cantidades determina el valor restante.
Por ejemplo, si n=4 y x1 x 8 ; x2 x 6 y x4 x 4, entonces
automáticamente tenemos x3 x 2 , así que sólo tres de las cuatro
Medidas de xi x están libremente determinadas, la otra debe tomar el valor
Que haga esta suma cero; es por esto que solo tenemos 3 grados de
libertad. Grados de libertad=número de mediciones-1
Distribución de probabilidad t-Student
Una variable aleatoria se distribuye según el modelo de probabilidad t o T de
Student con k grados de libertad, donde k es un entero positivo, si su función
de densidad es la siguiente
k 1 (k 1)
Γ
1 t 2 2
h k (t) k 2 t, Γ(p)
Γ πk k
donde
0 e x x p 1dx
2
La gráfica de esta función de densidad es simétrica, respecto del eje de
ordenadas, con independencia del valor de k, y de forma algo semejante a la
de una distribución normal:
Distribución t de Student con 10 grados de liberta
Su valor medio y varianza son
k 1 (k 1)
Γ
1 t 2 2
E(T) t..h k (t).dt t. k 2 dt .... 0
Γ πk k
2
Si k>3
k 1 (k 1)
Γ
t 2 2
2 2 2
Var(T) E((T ) ) (t - ) .h k (t).dt t. k
2 1 k
dt .... k 2
πk
Γ k
2
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia
general de la distribución t es similar a la de la distribución normal estándar:
ambas son simétricas y un modales, y el valor máximo de la ordenada se
en la media μ = 0. Sin embargo, la distribución t tiene colas más
amplias que la normal; esto es, la probabilidad de las colas es mayor que en la
distribución normal. A medida que el número de grados de libertad tiende a
infinito, la forma límite de la distribución t es la distribución normal estándar.
Propiedades de las distribuciones t
1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t, está más dispersa que la curva normal estándar.
3. A medida que k aumenta, la dispersión de la curva t correspondiente
disminuye.
4. A medida que k , la secuencia de curvas t se aproxima a la curva
normal estándar
La distribución de probabilidad de t se publicó por primera vez en 1908 en un
artículo de W. S. Gosset. En esa época, Gosset era empleado de una
cervecería irlandesa que desaprobaba la publicación de investigaciones de sus
empleados. Para evadir esta prohibición, publicó su trabajo en secreto bajo el
nombre de "Student". En consecuencia, la distribución t normalmente se llama
distribución t de Student, o simplemente distribución t.
Ejemplo de calibración
Se desea saber si un instrumento de medición cualquiera está calibrado, desde
el punto de vista de la exactitud. Para ello se consigue un valor patrón y se lo
mide 10 veces (por ejemplo: una pesa patrón para una balanza, un suero
control para un método clínico, etc.). Suponiendo que el resultado de estas
mediciones arroja una media de 52,9 y una desviación de 3, usando un patrón
de valor 50, se debe determinar si el instrumento está calibrado y la estimación
de su error sistemático, si es que se prueba su existencia (no se usan unidades
para generalizar este ejemplo).
H0:μ= 50 el instrumento está calibrado en exactitud
H1:μ ≠ 50 no está calibrado. Hay un error sistemático
Se trata de un ensayo de dos colas donde hay k =10–1=9 grados de libertad.
De la Tabla t-Student se obtienen los valores críticos para el 95% de
t0,05, 9= 2,262, para el 99% de t 0,01, 9 = 3,25 y para un nivel del 99,9% es t0,001,9
= 4,781. Lo que permite establecer las zonas de aceptación y rechazo:
t
x
52.9 50.0 3
s n 3 10
Mirando las zonas con los valores críticos, el valor de t cae en la de rechazo
para el 95% y no alcanza para las otras. La conclusión es que se ha probado la
existencia de un error sistemático con una confianza del 95%.
s 3
x t 52,9 3 52,9 2,8
n 10
N 80% 90% 95% 99% 99.9%
1 3,08 6,31 12,7 63,7 637
2 1,89 2,92 4,30 9,92 31,6
3 1,64 2,35 3,18 5,84 12,9
4 1,53 2,13 2,78 4,60 8,60
5 1,48 2,02 2,57 4,03 6,86
6 1,44 1,94 2,45 3,71 5,96
7 1,42 1,90 2,36 3,50 5,40
8 1,40 1,86 2,31 3,36 5,04
9 1,38 1,83 2,26 3,25 4,78
1 1,37 1,81 2,23 3,17 4,59
0
1,29 1,64 1,96 2,58 3,29
Ejemplo
De un universo de 44,000 niños, a los que se les registró el peso, talla e índice de masa
corporal, se tomó una muestra de 56 adolescentes (21 niñas y 35 niños), del subgrupo de
niñas y niños de 14 años de edad, para comparar las medias tomando exclusivamente el
índice de masa corporal (IMC).
IMC en niñas y niños de 14 años de edad
Paso 1: prueba de normalidad de cada una de las muestras.
Paso 2: en este caso se hace la prueba t-test aun sabiendo que una de las muestras (los
niños) no tiene normalidad.
Paso 3: prueba para la homogeneidad de varianzas; se pueden considerar que son
homogéneas debido a que la p = 0.570.
Paso 4: (i) diferencia de medias = 0.025, (ii) vc a las muestras.