UNIVERSIDAD DEL VALLE
ESCUELA DE ESTADISTICA
ESTADISTICA NO PARAMETRICA
PROFESOR GABRIEL CONDE A.
PRUEBAS CON LA BINOMIAL
Y
CUANTILES
Nota: Presentacin basada en notas de clase del profesor Mario Csar Jaramillo
de la UNAL, Medelln
DISTRIBUCION BERNOULLI
Definamos la variable aleatoria discreta X as:
X = 1; si se observa xito
X = 0; si se observa fracaso
Si p es la probabilidad de xito tendremos entonces
una funcin de masa de probabilidad para la variable
aleatoria X tal como
p; si x 1
PX (x)
1 p; si x 0
Diremos que la variable aleatoria X tiene distribucin
Bernoulli de parmetro p. Adems su media es =
E[X] = p y su varianza es Var(X) = (1 - p)p.
DISTRIBUCIN BINOMIAL.
CARACTERISTICAS
El experimento consta de n pruebas idnticas.
Cada prueba tiene dos resultados posibles: E = xito;
F = fracaso
La probabilidad de tener xito en una sola prueba es
igual a p y es constante en todas las pruebas.
Las pruebas son independientes.
La variable aleatoria de inters es X, el nmero de
xitos observados en las n pruebas.
La funcin de masa de la distribucin
Binomial[n, p] es
n x
f(X x) p (1 p) n x ; x 0,1,2, n
x
Adems: E(X) = np y Var(X) = np(1 - p).
LA APROXIMACIN DE LA BINOMIAL MEDIANTE LA DISTRIBUCION
NORMAL
[E. Parzen (1973). Captulo 6, pginas 265 a 273 y W. Feller (1968).
Captulo VII pginas 174 a 186]
ENUNCIADO: La probabilidad de que un fenmeno aleatorio regido
por la ley de probabilidades binomial con parmetros n y p (q = 1 p) tenga un valor observado que est entre a y b inclusive, para
cualesquiera enteros a y b, se determina aproximadamente por:
n k n k
p q
k a k
b
1
2
b np 0.5
npq
0.5y 2
a np -0.5
npq
b np 0.5
b np 0.5
dy
npq
npq
PRUEBAS CON LA BINOMIAL
PRUEBAS CON LA BINOMIAL
PRUEBAS CON LA BINOMIAL
pre-establecida.
PRUEBAS CON LA BINOMIAL
PRUEBAS CON LA BINOMIAL
PRUEBAS CON LA BINOMIAL
PRUEBAS CON LA BINOMIAL
Ejemplo: Bajo la teora Mendeliana, en un cruce entre plantas de
genotipos se puede esperar que se produzcan hijas, 1/4 de las cuales
son enanas y 3/4 son altas. En un experimento para evaluar si el
supuesto simple de herencia Mendeliana es razonable en una cierta
situacin, un cruce produjo 3 (243) plantas enanas y 13 (682) plantas
altas, en este caso ser aceptable este supuesto de herencia
Mendeliana?
Ejemplo: Se estima que al menos la mitad de los hombres que se
someten a una operacin de cncer sufren un efecto secundario
indeseable. En un esfuerzo para reducir este efecto el HUV estudia
un nuevo mtodo de realizar la operacin. De 19 operaciones slo 3
pacientes sufren el efecto secundario. Es seguro concluir que el
nuevo mtodo para operar es efectivo en la reduccin del efecto
secundario?
Sea p la probabilidad de que el paciente experimente efectos
secundarios:
Ho: p 0.5 vs H1: p < 0.5
La regin de rechazo es {T: T 5} con (real) = 0.0318 pero podemos
tomar = 0.05
El valor observado es T = 3 rechazamos Ho
Concluimos que el nuevo procedimiento es efectivo para reducir los
efectos secundarios.
El valor p = P(T 3) = 0.0022
que es bastante pequea , los datos de la muestra estn en fuerte
desacuerdo con Ho.
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
PRUEBA SOBRE CUANTILES
EJEMPLO DE CUANTILES
Q3 = X75, entonces:
H0 : P(X 193) 0.75 y P(X < 193) 0.75
H1 : 193 no es el cuartil superior poblacional
Encontremos la regin crtica con = 0.05
Sea Y b(15; 0.75), usando tabla de la binomial tenemos:
P(Y 7) = 0.0173 y P(Y 8) = 0.0566, luego t1 = 7
P(Y 13) = 0.9198 = 1 0.0802 y P(Y 14) = 0.9866 = 1 0.0134
luego t2 = 14 1 = 0.0173 y 2 = 0.0134, 1 + 2 = 0.0307.
Rc = {(T1; T2): T1 7 T2 14};
Resultados: T1 = 7 y T2 = 6.
Como T1 = 7 7 se rechaza H0, es decir, hay evidencia
muestral de que el cuartil superior del puntaje de admisin no es
193, con = 0.05.
LA PRUEBA DE SIGNOS
Los datos consisten de n observaciones en una muestra aleatoria
bi-variada (X1, Y1), , (Xn; Yn ), donde las Xs y las Ys son
dependientes, es decir, la muestra es pareada.
Para cada par (Xi, Yi) se compara Xi con Yi, si Xi < Yi el par es
clasificado con "+", si Xi > Yi el par es clasificado con -", y si Xi = Yi
el par es clasificado con "0". De esta manera la escala de
mediciones debe ser por lo menos ordinal.
SUPUESTOS:
1. Las variables aleatorias bivariadas (Xi; Yi) i = 1, 2, , n son
mutuamente independientes.
2. La escala de medida es al menos ordinal dentro de cada par.
El estadstico de prueba es T = # pares con + (o sea con X < Y)
Distribucin bajo Ho: T es binomial con p = y n = # pares sin
empates. O sea n = [# de +] + [# de -]
A. (test de 2 colas).
Ho : P(+) = P(-) vs H1: P(+) P(-)
Para n 20 usamos la tabla de la binomial con el apropiado valor de
n y p = 1/2 . Seleccionamos de la tabla el valor de /2 (lo llamamos
1), el valor de Y correspondiente lo llamamos t . La regin crtica de
tamao 21 corresponde al valor de T t T n t. Rechazamos Ho
si T t T n-t con un nivel de significancia 21. De otra manera
aceptamos Ho.
Para n > 20 usamos la aproximacin normal: t = (n + Z/2n) [*]
Nota: Si = 0.05 podemos tomar t = n/2 - n
El valor p = 2min(P(Y Tobs, Y Tobs)
B. (test cola inferior)
Ho: P(+) P(-) vs H1: P(+) < P(-)
Rc = {T: T t} cuando n 20.
P(Y t) con Y b(n; 1/2)
Rechazamos Ho si T t, a un nivel de significancia
Si n > 20 se usa la aproximacin normal [*]
Valor P = P(Y Tobs) con Y b(n; 1/2)
C. (test de cola superior)
Ho: P(+) P(-) vs H1: P(+) > P(-)
Rc = {T: T n t} cuando n 20.
t lo calculamos como en B, es decir P(Y t) con Y b(n; 1/2)
Si n > 20 se usa la aproximacin normal [*]
Valor P = P(Y Tobs) con Y b(n; 1/2)
EJEMPLO:
Un artculo A es fabricado usando cierto proceso, el artculo B
desempea la misma funcin que A, pero es fabricado usando
un proceso nuevo. El fabricante desea determinar si B es
preferible a A por el consumidor, para ello selecciona una
muestra aleatoria de 10 consumidores, a cada consumidor le da
tanto un articulo de A y como de B, para que ellos los usen por el
mismo periodo de tiempo. Al final del periodo de tiempo, los
consumidores reportaron sus preferencias as: 8 consumidores
prefirieron a B, uno prefiri a A y uno no tuvo preferencias. Hay
evidencia muestral suficiente, para sugerir que el consumidor
prefiere ms el artculo B, que el artculo A?, use = 0.05.
SOLUCIN:
El + representa el evento de que el artculo B es preferido sobre el
artculo A
Ho : P(+) P(-) vs P(+) > P(-)
el nmero de +'s = 8, el nmero de -'s = 1, el nmero de empates = 1.
Entonces n = 8 + 1 = 9, T = 8.
De la tabla de la binomial con n = 9, p = 0.5, = 0:05, se tiene que:
valor P = P(T 8) = 1 - P(T 7) = 1 0.9805 = 0.0195.
Como el valor P < rechazamos Ho, es decir, hay evidencia muestral
para pensar que el consumidor prefiere el artculo B sobre el artculo
A, con = 0:05.
Ejemplo histrico: En lo que fue, quizs, el primer reporte de un test no
paramtrico, Arbuthnott (en 1710) examin los archivos de nacimientos
disponibles en Londres, durante 82 aos y para cada ao compar el
nmero de varones nacidos con el nmero de mujeres nacidas. Si para
cada ao se denota el evento nacieron ms varones que mujeres con el
signo + y el contrario con el signo . Consideremos la prueba:
Ho: P(+) = P(-) vs Ha: P(+) P(-)
Usamos la aproximacin normal dada por [*] para calcular la regin crtica
con = 0.05 correspondiente a T < t donde
t = 0.5(82 1.9682) = 32.1.
y el valor de T > t con n t = 82 32.1 = 49.9.
De los registros Arbuthnott obtuvo 82 signos + (ningn y ningn
empate). Rechazamos Ho. Ejercicio: calcular el valor p.
Ejercicio: El tiempo de reaccin antes del almuerzo fue
comparado con el tiempo de reaccin despus del almuerzo con
un grupo de 28 trabajadores de oficina, de los cuales 22 tuvieron
una reaccin ms corta antes del almuerzo y 2 no presentaron
diferencias. Es el tiempo de reaccin antes del almuerzo
significativamente ms corto que el tiempo de reaccin despus
del almuerzo? use = 0.1
La prueba McNemar de significancia de cambios
Es un mtodo no paramtrico que se usa para analizar
datos nominales.
Se aplica para tablas de contingencia 2x2 donde se
registra una caracterstica dicotmica sobre sujetos
pareados (matched pairs)
Su finalidad es evaluar si las frecuencias marginales de fila
y columna son iguales
Los datos consisten de n observaciones independientes
de variables aleatorias bi-variadas (Xi; Yi), i = 1, 2, , n
Las parejas son independientes y las observaciones
dentro de la pareja son dependientes.
Xi representa la condicin de un sujeto antes de un
experimento y Yi representa la condicin del sujeto
despus del experimento.
La escala de medida de Xi y Yi es nominal con 2 categoras
Los datos se presentan por medio de una tabla 2x2
Consideramos la diferencia de probabilidades:
P(Xi = 0; Yi = 1) - P(Xi = 1; Yi = 0)
Esta puede ser negativa, positiva o cero para todo i.
Estadsticos de prueba:
Si b + c > 20, el estadstico de prueba es:
Si b + c 20 se usa mejor T2 = b
T1 y T2 tienen las siguientes distribuciones:
T1 2 (1) y T2 b(n = b+c, )
Hiptesis:
H0 : P(Xi = 0; Yi = 1) = P(Xi = 1; Yi = 0); i
H1 : P(Xi = 0; Yi = 1) P(Xi = 1; Yi = 0) para algn i.
Sea n = b + c. Si n 20, usamos la tabla de la distribucin
binomial. Si es el nivel de significancia entrar a la tabla
con n = b + c y p = y encontrar la abscisa aproximada
para /2 (llamar a este valor 1) y al correspondiente valor
llamarlo t. Rechazar Ho si T2 t T2 n t a un nivel de
significancia de 21, de lo contrario aceptar Ho. El valor p
es 2min[P(Y Tobs, Y Tobs)], donde Y b(n = b+c, ).
Si n > 20 usar T1 con la tabla de la distribucin 2(1) ,
rechazar Ho con un nivel de significancia si T1 > 2(1)(1-).
El valor p = P[T1 > Tobs] con T1 2(1)
Ejercicio en clase:
1) Preguntas:
De que manera la prueba de McNemar se adapta a una
prueba de signos? Porqu, en los estadsticos de prueba, slo
se consideran las cantidades b y c?
Porqu para n > 20 se puede usar una distribucin 2(1)(1-),
para definir la regin de rechazo?
2) Leer y entender la presentacin de la prueba de McNemar
y los ejemplos en el texto de Castillo y Ojeda (pginas 29 a 35)
Ejemplo
Consideremos las parejas (Xi, Yi) donde Xi = 0 si la iesima persona favorece a los demcratas antes Xi = 1
si favorece a los republicanos antes. Yi representa la
escogencia despus del debate.
Yi
Consideremos las parejas (Xi, Yi) donde Xi = 0 si la iesima persona favorece a los demcratas antes Xi = 1
si favorece a los republicanos antes. Yi representa la
escogencia despus del debate.
Yi
H0 : La poblacin de votantes a favor no altera su decisin
despus del debate.
H1 : Despus del debate hay un mayor cambio a favor del
Republicano, que a favor del Demcrata.
H0 : P(Xi = 0; Yi = 1) = P(Xi = 1; Yi = 0) vs
H1 : P(Xi = 0; Yi = 1) > P(Xi = 1; Yi = 0)
Solucin:
BIBLIOGRAFIA
Jaramillo, M. C. Estadstica no Paramtrica. Notas de Clase.
Universidad Nacional de Colombia, Medelln 2012. La mayora de los
ejemplos y textos fueron tomados de estas notas.
Castillo A. y Ojeda M. M. Principios de Estadstica no Paramtrica.
Universidad Veracruzana. Mexico 1994.
Conover W. J. Practical Nonparametric Satatistics. 3 edicin. Jhon
Wiley & Sons. N. Y. 1999.