Unidad VI-Teoría-No-Paramétrica
Unidad VI-Teoría-No-Paramétrica
Unidad VI
PRUEBAS PARA VARIABLES CUALITATIVAS, MEDIDAS DE
ASOCIACIÓN Y CORRELACIÓN
“It is easy to lie with statistics. It is hard to tell the truth without statistics”
Andrejs Dunkels
Introducción
En muchas investigaciones no se analizan solo variables cuantitativas, sino
también de tipo cualitativo.
De las variables cualitativas se puede aprovechar su frecuencia, más aún cuando
se cruzan dos variables de este tipo, se pueden formar tablas de contingencia.
Si esta tabla de contingencia se forma a partir de los datos de una muestra
aleatoria se puede utilizar la Prueba de Independencia, la cual permite verificar
si las dos variables están relacionadas; mientras que si los datos provienen de
varias muestras se puede hacer uso de la Prueba de Homogeneidad de
Subpoblaciones, la cual permite verificar si las subpoblaciones no provienen de
una misma población.
Si con la Prueba de Independencia se demuestra que las variables están
relacionadas una posterior interrogante que se desea responder es que tan
fuerte es la relación existente entre las dos variables. Esto se puede determinar
con una serie de indicadores que se desarrollarán en este capítulo.
Por otro lado, si se tienen dos variables que se encuentran medidas en al menos
una escala ordinal y se desea analizar si estas variables se encuentran o no
correlacionadas no solo se puede hacer uso de la Correlación de Pearson, pues
para realizar inferencia sobre este coeficiente se debe demostrar que los datos
provienen de una distribución normal bivariada. Si este requisito no se cumple
se puede hacer uso de otros coeficientes de correlación como el de Spearman o
de Kendall.
Tabla de Contingencia
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los
datos de una o varias muestras aleatorias. Estas frecuencias son clasificadas de
acuerdo a las clases ó categorías de una variable A y a las clases ó categorías
de una variable B.
Sea "A" una característica con sus categorías a1, a2,…, ac y "B" una característica
con sus categorías b1, b2,..., bf
Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B
bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..
Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"
𝑓 𝑓
𝑛𝑖 . = ∑𝑐𝑗=1 𝑜𝑖𝑗 𝑛𝑖 . = ∑𝑖=1 𝑜𝑖𝑗 𝑛. . = ∑𝑖=1 ∑𝑐𝑗=1 𝑜𝑖𝑗
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
➢ Supuestos
▪ Las muestras son seleccionadas al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
Observaciones:
Si se tiene un solo grado de libertad para el valor crítico, el tamaño de la muestra
es pequeño (n50) o existe un valor esperado menor a 5, se puede hacer uso de
la Corrección de Yates, el cual hace un ajuste al estadístico 𝜒 2
𝑓 𝑐
(|𝑜𝑖𝑗 − 𝑒𝑖𝑗 | − 0.5)2 2
𝜒𝑐2 = ∑∑ ~𝜒[1−𝛼,(𝑓−1)(𝑐−1)]
𝑒𝑖𝑗
𝑖=1 𝑗=1
➢ Aplicación
Ejemplo 1: Prueba de Independencia
El jefe de una planta industrial desea determinar si existe relación entre el
rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra
aleatoria de 400 empleados y se obtuvo las frecuencias observadas que se
presentan en la siguiente tabla de contingencia:
Rendimiento Turno Laboral
en el trabajo Mañana Tarde Noche Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador
está asociada con el turno en el que labora el empleado?
Solución:
H0: El rendimiento de un empleado en el trabajo es independiente del turno en el
que labora.
H1: El rendimiento de un empleado en el trabajo no es independiente del turno
en el que labora.
= 0.01
Prueba Estadística
f c (oij − eij ) 2
=
2
c ~ 21− ,( f −1)( c −1
i =1 j =1 eij
Desarrollo de la prueba
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)
Criterios de decisión
library(fastGraph)
shadeDist(qchisq(0.01,4,lower.tail=F),"dchisq",4,lower.tail
=F)
Conclusión
Con nivel de significación 0.01 se puede afirmar que la calificación del
rendimiento real de un empleado en el trabajo está relacionada con el turno en
el que labora.
Solución
Formulación de las hipótesis
=0.05
Prueba Estadística
f c (oij − eij ) 2
=
2
c ~ 21− ,( f −1)( c −1)
i =1 j =1 eij
Desarrollo de la Prueba
Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300
Criterios de decisión
shadeDist(qchisq(0.05,2,lower.tail=F),"dchisq",2,lower.tail
=F)
No se rechaza H0 si: 2c 5.9915
Se rechaza H0 si: 2c 5.9915
Conclusión
Con nivel de significación 0.05 no existe suficiente evidencia estadística para
rechazar la hipótesis nula.
Por lo tanto, no se puede afirmar que la probabilidad de desintegración es
diferente en al menos uno de los tres tipos de materiales
➢ Secuencia en R
En R existen
La función chisq.test que permite obtener el resultado para ambas pruebas.
chisq.test(x,y) o chisq.test(tabla)
La función assocstats del paquete vcd permite obtener adicionalmente la prueba
de Razón de Verosimilutud.
La función CrossTable del paquete gmodels también permite obtener varias
pruebas para tablas de contingencia, pero solo se puede utilizar con datos sin
agrupar.
La función chisq_test del paquete rstatix permite obtener la prueba Chi
Cuadrado.
➢ Resultados con R
tabla<-matrix(c(23,60,29,28,79,60,9,49,63),3,3,byrow=TRUE)
chisq.test(tabla)
tabla<-matrix(c(41,27,22,79,53,78),2,3,byrow=TRUE)
library(vcd)
assocstats(tabla)
library(rstatix)
chisq_test(tabla)
# A tibble: 1 x 6
n statistic p df method p.signif
* <dbl> <dbl> <dbl> <int> <chr> <chr>
1 400 20.2 0.00046 4 Chi-square test ***
➢ Algunas consideraciones en R
▪ Si realiza la corrección de Yates solo para tablas 2x2
▪ Permite hacer la prueba para datos agrupados y sin agrupar en una tabla de
contingencia.
➢ Supuestos
▪ Las dos muestras son seleccionadas al azar.
▪ Las muestras son independientes.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
➢ Inferencia Estadística
Para llevar a cabo la prueba se debe realizar lo siguiente:
▪ Clasificar las muestras en las 2 categorías de la variable de interés, de tal manera
que se forme una tabla de contingencia 2x2 de la siguiente manera:
Grupo
Variable Combinación
I II
+ A B A+B
- C D C+D
Total A+C B+D n
A + C B + D
A B ( A + B )! (C + D )! ( A + C )! (B + D )!
p= =
n n! A! B! C! D!
A + B
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : 1 = 2 H 0 : 1 = 2 H 0 : 1 = 2
H1 : 1 2 H1 : 1 2 H1 : 1 2
➢ Aplicación
Se tienen dos grupos de pacientes (hombres y mujeres) a los que se les
proporcionó un analgésico. Los resultados (mejoró (+) ó no mejoró (-)) luego de
un periodo son los siguientes:
Grupo
Variable Combinación
Mujeres Hombres
Mejoró(+) 5 1 6
No mejoró (-) 2 7 9
Total 7 8 15
H 0 : 1 = 2
H1 : 1 2
=0.05
Conclusión
A un nivel de significación de 0.05, se puede afirmar que la proporción de mujeres
que mejoró luego de aplicado el analgésico es superior a la proporción de
hombres que mejoró luego de aplicado el analgésico.
➢ Secuencia en R
Existe las funciones
fisher.test del paquete stats
fisher.test(x,y, alternativa) o fisher.test(tabla, alternativa)
fisher_test del paquete rstatix
➢ Resultados con R
tabla<-matrix(c(5,2,1,7),2,2)
fisher.test(tabla,alternative="g")
fisher_test(tabla,alternative = "g")
# A tibble: 1 x 3
n p p.signif
* <dbl> <dbl> <chr>
1 15 0.035 *
➢ Algunas en R
▪ Realiza los casos bilateral y unilateral.
▪ Se puede realizar la prueba con los datos sin agrupar o agrupados en una tabla
de contingencia 2x2.
➢ Supuestos
▪ Las muestras son seleccionadas al azar.
▪ Las muestras son independientes.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
➢ Inferencia Estadística
▪ Clasificar dentro de cada estrato las variables de interés.
▪ Se denomina p1i a la proporción de elementos de la primera fila que caen en la
primera columna y p2i a la proporción de elementos de la segunda fila que caen
en la primera columna de la tabla i.
▪ En cada tabla i hay ni observaciones, todas ellas pueden ser categorizadas como
del tipo 1 (ri de ellos) o del tipo 2 (ni-ri de ellos). Si ci elementos son seleccionados
del total de los ni elementos, la probabilidad que exactamente xi de los elementos
seleccionados son del tipo 1 es:
ri ni − ri
x c − x
i i i
ni
c
i
De igual manera, todos los elementos pueden ser categorizados como del tipo A
(ci de ellos) o del tipo B (ni-ci de ellos), la probabilidad de que exactamente xi de
los seleccionados son del tipo A es:
ci ni − ci
x r − x
i i i
ni
r
i
De seguro que las dos probabilidades son iguales
ri ni − ri ci ni − ci
x c − x x r − x
i i i
= i i i
ni ni
c r
i i
Esas son probabilidades hipergeométricas con media y varianza:
i i ( ni − ri )( ni − ci )
ri ci y rc
ni ni2 ( ni − 1)
Los k estratos son independientes por lo que el estadístico es:
k k
rc
x − n
i =1
i
i =1
i i
T= i
~ N (0,1)
i i ( ni − ri )( ni − ci )
k
rc
i =1 ni2 ( ni − 1)
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : 1i = 2i H 0 : 1i = 2i H 0 : 1i = 2i
H1 : 1i 2i H1 : 1i 2i H1 : 1i 2i
➢ Aplicación
Se tiene tablas 2x2 de la clasificación de personas de 3 localidades con respecto
a su hábito de fumar y su diagnóstico de cáncer. Los resultados se presentan a
continuación:
H 0 : 1i = 2i
para i=1,2,3
H1 : 1i 2i
=0.05
Prueba Estadística
x
i =1
i =3 + 20 + 4 = 27
k
ri ci (6)(4) + (42)(26) + (16)(5) =
n i =1
=
9 61 21
i
ni ( ni − 1)
2
i i
pvalor<- 2*(1-pnorm(1.232))
0.2179491
Criterios de decisión
shadeDist(qnorm(c(0.025,0.975),lower.tail=F),"dnorm")
No se rechaza H0 si: -1.96<Zcal 1.96
Se rechaza H0 si: Zcal 1.96 o Zcal>-
1.96
Conclusión
A un nivel de significación de 0.05, no se puede afirmar que la proporción de
incidencia de cáncer para fumadores y no fumadores no coincide en las 3
localidades.
➢ Secuencia en R
Existe la función mantelhaen.test, en donde se debe indicar el conjunto de datos
como un arreglo
mantelhaen.test(tabla, alternativa)
➢ Resultados con R
tabla<-array(c(3,3,1,2,20,22,6,13,4,12,1,4),dim=c(2,2,3))
mantelhaen.test(tabla)
mantelhaen.test(tabla,correct=FALSE)
2. Medidas de Asociación
En el proceso de investigación, se puede desear conocer si dos variables están
relacionadas y si es así determinar cuál es su grado de relación.
En esta sección se presentará medidas de correlación no paramétrica y sus
respectivas pruebas estadísticas que permiten determinar la significación de la
asociación observada. El problema de medir el grado de asociación entre dos
variables es más general que el de probar la existencia de algún grado de
asociación.
En el caso paramétrico, la medida usual de correlación es el coeficiente de
Pearson. Este estadístico requiere que las variables estén medidas en al menos
una escala de intervalo, para una adecuada interpretación del estadístico.
Si deseamos probar la significación del este coeficiente, debemos no sólo utilizar
la medida requerida, sino también verificar que las observaciones provengan de
una distribución normal bivariada.
El coeficiente de correlación de Pearson mide el grado en el cual existe una
relación lineal entre las variables.
Si para un conjunto de datos los supuestos antes mencionados no son
sostenibles, entonces se debe usar un coeficiente de correlación alternativo
como es el caso de los coeficientes de Spearman o de Kendall.
Harald Cramer
(1893 – 1985)
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
➢ Inferencia Estadística
▪ Con las variables A, con categorías A1, A2, …,Ak y B con categorías B1, B2, …,
Br, obtener la siguiente tabla de contingencia:
A1 A2 … Ak Total
B1 n11 n12 … n1k R1
B2 n21 n22 … n2k R2
: : : : :
Br nr1 nr2 … nrk Rr
Total C1 C2 … Ck n
Mientras mayor sea la asociación entre las dos variables será más grande el
valor del coeficiente de Cramer. El coeficiente de Cramer varía entre 0 y 1.
Hipótesis
H0: No existe asociación entre las variables X e Y. H0: = 0
H1: Existe asociación entre las variables X e Y. H1: 0
El coeficiente V de Cramer tiene algunas limitaciones y es por esa razón que han
aparecido otros coeficientes alternativos como: Coeficiente de contingencia
corregido de Pawlik, Cuadrado medio de contingencia, Coeficiente de
Tschuprow, entre otros.
Algunas limitaciones del coeficiente V de Cramer son:
▪ El coeficiente V de Cramer tiene la primera característica es igual a cero
cuando no existe asociación entre las variables en la muestra. Sin
embargo, cuando es igual a la unidad, pudiera no ser una asociación
“perfecta” entre las variables.
▪ Una segunda limitación de V es que los datos deben ser fáciles de usar
con el estadístico 2, con el propósito que su significación pueda ser
interpretada apropiadamente, esto es la prueba Chi Cuadrado solo debe
aplicarse sólo si menos del 20% de las celdas en la tabla de contingencia
tienen frecuencias esperadas menores que cinco y ninguna celda tiene
una frecuencia esperada menor que uno.
➢ Aplicación
Koch & Edwards (1988) realizaron un ensayo clínico doble ciego que investiga
un nuevo tratamiento para la artritis reumatoide. En un experimento doble ciego,
ni los individuos participantes ni los investigadores saben quién pertenece
al grupo de control (el que recibe placebos) y quién es el grupo experimental.
Solamente después de haberse recolectado todos los datos, y concluido el
experimento, los investigadores conocen qué individuos pertenecen a cada
grupo.
Utilice las variables Treatment y Improved del conjunto de datos Arthritis del
paquete vcd para obtener el coeficiente de Cramer y evaluar su significancia a
un =0.05.
H0: = 0
H1: 0
=0.05
2 13.055
V= = = 0.3942
n( L − 1) 84 ( 2 − 1)
2 = 13.055
Pvalor=0.001 < se rechaza H0
Conclusión
A un =0.05, se puede afirmar que el coeficiente de asociación V de Cramer es
significativo.
➢ Secuencia en R
Existe la función cramersV del paquete lsr
cramersV(tabla)
La función assocstats del paquete vcd también permite obtener el coeficiente V
de Cramer y otras medidas de asociación
assocstats(tabla)
Se puede hacer uso de la función cramer del paquete sjstats para obtener el
coeficiente.
Las funciones Assocs y CramerV del paquete DescTools también permiten
obtener el coeficiente V de Cramer
CramerV(tabla)
Assocs(tabla)
➢ Resultados con R
library(vcd)
data("Arthritis")
tabla<-table(Arthritis[,2],Arthritis[,5])
assocstats(tabla)
Phi-Coefficient : 0.394
Contingency Coeff.: 0.367
Cramer's V : 0.394
library(sjstats)
cramer(tabla)
[1] 0.3942295
library(lsr)
cramersV(tabla)
[1] 0.3942295
library(DescTools)
CramerV(tabla)
[1] 0.3942295
Assocs(tabla)
Karl Pearson
(1857 – 1936)
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.
➢ Inferencia Estadística
▪ Construir la tabla de contingencia.
▪ Calcular el estadístico Chi Cuadrado
▪ Calcular el coeficiente de Contingencia de Pearson mediante:
2
C=
2 + n
Donde:
(n − eij )
2
r k r k nij
= = −n
2 ij
i =1 j =1 eij i =1 j =1 Eij
Mientras mayor sea la asociación entre las dos variables será más grande el
valor del coeficiente de contingencia de Pearson. El coeficiente de Contingencia
de Pearson varía entre 0 y Cmax.
Hipótesis
H0: No existe asociación entre las variables X e Y. H0: = 0
H1: Existe asociación entre las variables X e Y. H1: 0
➢ Aplicación
Utilice las variables Treatment y Improved del conjunto de datos Arthritis del
paquete vcd provenientes del estudio de Koch & Edwards (1988) para obtener el
coeficiente de Contingencia. Evalúe su significancia a un =0.05.
H0: = 0
H1: 0
=0.05
2 13.055
V= = = 0.367
2 + n 13.055 + 84
2 = 13.055
Pvalor=0.001 < se rechaza H0
Conclusión
A un =0.05, se puede afirmar que el coeficiente Contingencia es significativo.
➢ Secuencia en R
Existe la función assocstats del paquete vcd
assocstats(tabla).
También dentro del paquete DescTools, se pueden utilizar las funciones
ContCoef o Assocs
ContCoef(tabla)
Assocs(tabla)
➢ Resultados con R
library(vcd)
assocstats(tabla1)
X^2 df P(> X^2)
Likelihood Ratio 13.530 2 0.0011536
Pearson 13.055 2 0.0014626
Phi-Coefficient : NA
Contingency Coeff.: 0.367
Cramer's V : 0.394
library(DescTools)
ContCoef(tabla1)
[1] 0.3667581
Assocs(tabla1)
estimate lwr.ci upr.ci
Phi Coeff. 3.9420e-01 - -
Contingency Coeff. 3.6680e-01
➢ Algunas consideraciones en R
▪ Solo la función assocstats permite evaluar la significancia del coeficiente de
Contingencia.
Brian W. Matthews
(1938 – actualidad)
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar en una variable binaria.
➢ Inferencia Estadística
▪ Arreglar los datos en una tabla 2x2. Ya que los datos son dicotómicos,
supondremos que los datos son codificados como cero y uno para cada variable,
aunque puede ser usada cualquier asignación del valor binario.
AD − BC
r =
( A + B )( C + D )( A + C )( B + D )
Cuyo rango puede ser desde cero hasta uno.
▪ El coeficiente Phi está relacionado con el estadístico 2 que se usa para probar
la independencia de variables categóricas (medidas nominalmente). De aquí que
la significación del coeficiente Phi puede probarse al usar el estadístico 2.
n ( AD − BC − n 2 )
2
=
2
~ (21− ,1)
( A + B )( C + D )( A + C )( B + D )
Hipótesis
H0: No existe relación entre las variables X e Y. H0: = 0
H1: Existe relación entre las variables X e Y. H1: 0
➢ Aplicación
En una segunda vuelta electoral para la elección presidencial se quiere analizar
si existe relación entre los candidatos y el género del elector. Se seleccionó una
muestra aleatoria de electores, obteniéndose los siguientes resultados:
Candidato
Género
A B
Masculino 29 12
Femenino 44 26
➢ Secuencia en R
Existe la función phi del paquete psych
phi(tabla)
La función assocstats del paquete vcd también permite obtener el coeficiente Phi
y otras medidas de asociación
assocstats(tabla).
El paquete DescTools con sus funciones Assocs y Phi también permiten obtener
el Coeficiente Phi.
Assocs(tabla)
Phi(tabla)
Existe la función phi del paquete misty.
➢ Resultados con R
library(vcd)
tabla<-matrix(c(29,44,12,26),2,2)
assocstats(tabla)
Phi-Coefficient : 0.08
Contingency Coeff.: 0.08
Cramer's V : 0.08
library(psych)
phi(tabla)
[1] 0.08
library(DescTools)
Phi(tabla2)
[1] 0.01800945
Assocs(tabla2)
estimate lwr.ci upr.ci
Phi Coeff. 1.8000e-02 - -
Contingency Coeff. 1.8000e-02 - -
library(misty)
tabla<-matrix(c(29,44,12,26),2,2)
tab<-as.table(tabla)
phi(tab)
[1] 0.08009663
➢ Algunas consideraciones en R
▪ Brinda el coeficiente Phi y su significancia para la función assocstats.
3. Medidas de Correlación
1.1. Coeficiente de Correlación rs de Spearman de rangos ordenados
➢ Aspectos Generales
El coeficiente de correlación de Spearman mide el grado de asociación entre dos
variables cuantitativas que siguen una tendencia siempre creciente o
decreciente. Es decir, es más general que el coeficiente de correlación de
Pearson, el cual asume que la relación entre las dos variables es lineal, la
correlación de Spearman en cambio se puede calcular para las relaciones
exponenciales o logarítmicas entre las variables.
Es una medida de asociación entre dos variables que requiere que ambas estén
medidas en al menos una escala ordinal, de tal manera que los elementos en
estudio puedan ser colocados en rangos en dos series ordenadas.
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala al menos ordinal.
➢ Inferencia Estadística
▪ Se obtiene los rangos para cada una de las variables (X e Y) de manera
independiente.
▪ Se calcula la diferencia de rangos di para cada pareja de observaciones,
restando el rango de Yi menos el rango de Xi.
▪ Se eleva al cuadrado cada di y se calcula la suma de estos valores.
▪ Se calcula:
n
6 d i2
rs = 1 − i =1
n(n − 1)
2
(n )
− n − 6 d i2 − (Tx + T y ) 2
n
3
rs = i =1
(n 3
)2
( )
− n − (Tx + T y ) n 3 − n + Tx T y
Donde
( )
g
Tx = t i3 − t i , donde g es el número de grupos de diferentes rangos
i =1
empatados y ti es número de elementos empatados en el i-ésimo grupo.
Prueba de significación de rs
Se puede probar la hipótesis nula de que las dos variables en estudio no están
asociadas (son independientes) contra la hipótesis H1 que existe asociación
entre X e Y (una prueba bidireccional) o existe una asociación positiva (o
negativa) entre X e Y (una prueba unidireccional).
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H0 : s = 0 H0 : s = 0 H0 : s = 0
H1 : s 0 H1 : s 0 H1 : s 0
➢ Aplicación
La tabla siguiente muestra los consumos de calorías (cal/día/Kg) y de oxígeno
VO2 (ml/min/Kg.) de 10 niños.
N° de Consumo VO2
Rango Rango
niño de calorías (Y)
(X) (Y)
di d i2
(X)
1 50 7.0 2 1 -1 1
2 70 8.0 3 2 -1 1
3 90 10.5 5 6 1 1
4 120 11.0 8 8 0 0
Solución
H0: Los consumos de calorías y de oxígeno VO2 son mutuamente excluyentes.
H0: ρs = 0
H1: Los consumos de calorías y de oxígeno VO2 están directamente
relacionadas. H1: ρs > 0
=0.05
Prueba Estadística
n
6 d i2
rs = 1 − i =1
n(n 2 − 1)
Criterio de Decisión
No se rechaza H0 si rs 0.5515
Se rechaza H0 si rs > 0.5515
Desarrollo de la Prueba
6(14) 84
rs = 1 − = 1− = 0.915
10(10 − 1)
2
990
Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que los consumos de calorías y de oxígeno VO 2
están directamente relacionados.
➢ Secuencia en R
Existe la función cor.test del paquete Stat
cor.test(x,y,método=spearman, alternativa)
También existe el paquete pspearman con la función spearman.test
spearman.test(x,y,alternativa,aproximación)
➢ Resultados con R
x<-c(50,70,90,120,40,100,150,110,75,160)
y<-c(7,8,10.5,11,9,10.8,12,10,9.5,11.9)
cor.test(x,y,method="spearman",alternative="g")
data: x and y
S = 14, p-value = 0.0002334
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.9151515
➢ Algunas consideraciones en R
▪ Permite analizar los casos unilaterales y bilaterales.
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala al menos ordinal.
➢ Inferencia Estadística
▪ Primero se debe calcular el coeficiente de correlación de Kendall como el número
de acuerdos menos el número de desacuerdos entre el número total de
combinaciones tomados en dos.
Por ejemplo:
Supóngase que para poner el rango de calidad de cuatro objetos (a, b, c y d)
preguntamos a los jueces X e Y.
Ensayo a b c d
Juez X 3 4 2 1
Juez Y 3 1 4 2
Si arreglamos el orden de los ensayos de tal modo que los rangos del juez X
aparezcan en orden natural (1, 2, ... , n) tenemos:
Ensayo d c a b
Juez X 1 2 3 4
Juez Y 2 4 3 1
Juez X 1 2 3 4
Juez Y 2 4 3 1 Total
2→ + + - 1
4→ - - -2
3→ - -1
1→ 0
Gran total -2
n 4
2 = 2 = 6
Donde
Tx = t ( t − 1) Ty = t ( t − 1)
x<-c(3,4,2,1)
y<-c(3,1,4,2)
cor(x,y,method="kendall")
[1] -0.3333333
➢ Aplicación
A continuación, se presenta las calificaciones de 12 estudiantes a dos temas de
interés. Pruebe a un =0.05 si existe relación entre estos dos temas de interés
Tema1 3 4 2 1 8 11 10 6 7 12 5 9
Tema2 2 6 5 1 10 9 8 3 4 12 7 11
H0: xy= 0
H1: xy ≠ 0
=0.05
Pvalor = 0.0018
Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que existe relación entre los dos temas de interés.
➢ Secuencia en R
Existe la función cor.test
cor.test(x,y,método=kendall, alternativa)
Otras funciones son:
cor.fk del paquete pcaPP que brinda solo el coeficiente.
cor.fk(x,y)
Kendall del paquete Kendall que brinda el pvalor para una prueba bilateral.
Kendall(x,y)
➢ Resultados con R
Tema1<-c(3,4,2,1,8,11,10,6,7,12,5,9)
Tema2<-c(2,6,5,1,10,9,8,3,4,12,7,11)
cor.test(Tema1,Tema2,method="kendall")
library(pcaPP)
cor.fk(Tema1,Tema2)
[1] 0.6666667
library(Kendall)
Kendall(Tema1,Tema2)
library(agricolae)
agricolae :: kendall(Tema1,Tema2)
$stat
[1] 3.017192
$tau
[1] 0.6666667
$pvalue
[1] 0.002551281
➢ Algunas consideraciones en R
▪ Permite analizar los casos unilaterales y bilaterales.
▪ Presenta el estadístico de prueba.
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala ordinal.
➢ Inferencia Estadística
▪ Se deben calcular todas las posibles correlaciones de Kendall entre las tres
variables Txy, Txz y Tyz.
▪ Calcular el coeficiente de correlación parcial de Kendall mediante la siguiente
expresión
Txy − TxzTyz
Txy . z =
(1 − T )(1 − T )
2
xz
2
yz
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : xy . z = 0 H 0 : xy . z = 0 H 0 : xy . z = 0
H1 : xy . z 0 H1 : xy . z 0 H1 : xy . z 0
➢ Aplicación
En un estudio de psicología se ha evaluado las puntuaciones de tres temas:
autoritarismo (X), estatus de lucha (Y) y la conformidad a la presión de grupo (z).
Los resultados de la evaluación a doce personas se presentan a continuación:
X 3 4 2 1 8 11 10 6 7 12 5 9
Y 2 6 5 1 10 9 8 3 4 12 7 11
Z 1.5 1.5 3.5 3.5 5 6 7 8 9 10.5 10.5 12
H0: xy.z = 0
H1: xy.z ≠ 0
=0.05
Z = 2.776
Pvalor=0.0055<α se rechaza H0.
Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que existe relación si existe relación entre el
autoritarismo y estatus de lucha debido a la conformidad a la presión de grupo.
➢ Secuencia en R
Existe la función cor y a partir de ella se debe obtener la correlación parcial
cor(x,y,método=kendall, alternativa)
Tambien existe la función pcor.test del paquete ppcor
pcor.test(X,Y,Z,method="kendall")
➢ Resultados con R
X<-c(3,4,2,1,8,11,10,6,7,12,5,9)
Y<-c(2,6,5,1,10,9,8,3,4,12,7,11)
Z<-c(1.5,1.5,3.5,3.5,5,6,7,8,9,10.5,10.5,12)
XY<-cor(X,Y,method="kendall")
XZ<-cor(X,Z,method="kendall")
YZ<-cor(Y,Z,method="kendall")
Txyz<-(XY-XZ*YZ)/sqrt((1-XZ^2)*(1-YZ^2))
n<-length(X)
zcal<-(3*Txyz*sqrt(n*(n-1)))/sqrt(2*(2*n+5))
[1] 2.776892
2*(1-pnorm(zcal))
[1] 0.005488142
pcor.test(X,Y,Z,method="kendall")
estimate p.value statistic n gp Method
1 0.6135709 0.008610245 2.627154 12 1 kendall
Análisis de concordancias
➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en al menos una escala ordinal.
a) ÍndiceTau de Kendall
C−D 2 (C − D )
= =
n (n − 1) n (n − 1)
2
−1 1
c) Índice D de Sommers
Este índice incluye los empates en su fórmula:
C−D C−D
D* = =
(C + D + E A ) + (C + D + E B ) E + EB
C+D+ A
2 2
C−D
b =
(C + D + E A ) (C + D + E B )
➢ Aplicación
Ejemplo: Se tiene las siguientes 4 variables con 6 casos cada una.
X1 X2 X3 X4
1 1 1 1
2 1 1 2
3 2 1 3
4 3 2 4
5 5 4 4
6 4 3 4
El número total de parejas entre n datos es n(n-1)/2. Luego en este caso existen
(6)(5)/2 = 15 parejas.
Para cada par de variables analizaremos el número de concordancias,
discordancias y empates.
Variables C D EA EB ED
1-2 13 1 0 1 0
1-3 11 1 0 3 0
1-4 12 0 0 3 0
2-3 12 0 0 2 1
2-4 11 0 1 3 0
3-4 9 0 3 3 0
2 (C − D ) 2(13 − 1)
= = = 0.8
n(n − 1) 6(5)
Lo cual indica una relación lineal fuerte y directa entre las variables X 1 y X2.
C − D 13 − 1
= = = 0.8571
C + D 13 + 1
C−D 13 − 1
D* = = = 0.8276
E + EB 0 +1
C+D+ A 13 + 1 +
2 2
C−D 13 − 1
b = = = 0.8281
(C + D + E A ) (C + D + E B ) (13 + 1 + 0)(13 + 1 + 1)
V=min(6,5)=5
➢ Secuencia en R
En el paquete vcdExtra se encuentra la función GKgamma con la cual se puede
obtener el índice de Gamma y Kruskal
GKgamma(tabla)
También existe el paquete ryouready que presenta varias funciones que permite
obtener varios índices como:
Índice de Goodman y Kruskal
ord.gamma(tabla)
La D de Sommers
ord.somers.d(tabla)
Las Tau-b y Tau-c de Kendall
ord.tau(tabla)
➢ Resultados con R
x1<-1:6
x2<-c(1.5,1.5,3,4,6,5)
library(vcdExtra)
tabla<-table(x1,x2)
GKgamma(tabla)
gamma : 0.857
std. error : 0.159
CI : 0.545 1
library(ryouready)
ord.gamma(tabla)
Goodman-Kruskal Gamma: 0.857
ord.somers.d(tabla)
Somers' d:
Columns dependent: 0.800
ord.tau(tabla)
Kendall's (and Stuart's) Tau statistics
Tau-b: 0.828
Tau-c: 0.833>