0% encontró este documento útil (0 votos)
25 vistas42 páginas

Unidad VI-Teoría-No-Paramétrica

El documento aborda el análisis de variables cualitativas mediante pruebas estadísticas como la Prueba de Independencia y la Prueba de Homogeneidad, utilizando tablas de contingencia y el estadístico Chi Cuadrado de Pearson. Se discuten los supuestos necesarios para aplicar estas pruebas y se presentan ejemplos prácticos para ilustrar su uso en la investigación. Además, se mencionan medidas de correlación no paramétrica para variables ordinales y la importancia de determinar la significación de las asociaciones observadas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
25 vistas42 páginas

Unidad VI-Teoría-No-Paramétrica

El documento aborda el análisis de variables cualitativas mediante pruebas estadísticas como la Prueba de Independencia y la Prueba de Homogeneidad, utilizando tablas de contingencia y el estadístico Chi Cuadrado de Pearson. Se discuten los supuestos necesarios para aplicar estas pruebas y se presentan ejemplos prácticos para ilustrar su uso en la investigación. Además, se mencionan medidas de correlación no paramétrica para variables ordinales y la importancia de determinar la significación de las asociaciones observadas.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Departamento Académico de Estadística e Informática


Estadística No Paramétrica

Unidad VI
PRUEBAS PARA VARIABLES CUALITATIVAS, MEDIDAS DE
ASOCIACIÓN Y CORRELACIÓN

“It is easy to lie with statistics. It is hard to tell the truth without statistics”

Andrejs Dunkels

Introducción
En muchas investigaciones no se analizan solo variables cuantitativas, sino
también de tipo cualitativo.
De las variables cualitativas se puede aprovechar su frecuencia, más aún cuando
se cruzan dos variables de este tipo, se pueden formar tablas de contingencia.
Si esta tabla de contingencia se forma a partir de los datos de una muestra
aleatoria se puede utilizar la Prueba de Independencia, la cual permite verificar
si las dos variables están relacionadas; mientras que si los datos provienen de
varias muestras se puede hacer uso de la Prueba de Homogeneidad de
Subpoblaciones, la cual permite verificar si las subpoblaciones no provienen de
una misma población.
Si con la Prueba de Independencia se demuestra que las variables están
relacionadas una posterior interrogante que se desea responder es que tan
fuerte es la relación existente entre las dos variables. Esto se puede determinar
con una serie de indicadores que se desarrollarán en este capítulo.

Por otro lado, si se tienen dos variables que se encuentran medidas en al menos
una escala ordinal y se desea analizar si estas variables se encuentran o no
correlacionadas no solo se puede hacer uso de la Correlación de Pearson, pues
para realizar inferencia sobre este coeficiente se debe demostrar que los datos
provienen de una distribución normal bivariada. Si este requisito no se cumple
se puede hacer uso de otros coeficientes de correlación como el de Spearman o
de Kendall.

También, se puede considerar estudios donde adicionalmente a las dos variables


que se desea analizar puede existir una tercera variable que permite segmentar
grupos, a esta tercera variable usualmente se le conoce como capa. Se
presentará una prueba que permita analizar este tipo de situaciones.

En este capítulo, se presentará el análisis de variables cualitativas, algunas


medidas de correlación no paramétrica para variables medidas en al menos
escala intervalo, así como las respectivas pruebas estadísticas que determinan
la significación de la asociación observada.

Dr. Jaime Carlos Porras Cerrón 248


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1. Pruebas para variables cualitativas nominales


Cuando se utiliza variables cualitativas en una investigación se puede
aprovechar la frecuencia de sus categorías.
Esto ya fue se puede haber visto en la prueba de frecuencias o prueba de
proporciones para una muestra cuando se analiza una variable. Sin embargo,
cuando se quiere analizar dos variables, estas se pueden cruzar obteniéndose
una tabla de contingencia o una tabla de contingencia en una o varias capas o
estratos.
La definición formal de una tabla de contingencia se desarrollará a continuación.
Pero, vale la pena mencionar que para la evaluación de una tabla de
contingencia por lo general se utiliza el estadístico Chi Cuadrado de Pearson.

Tabla de Contingencia
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los
datos de una o varias muestras aleatorias. Estas frecuencias son clasificadas de
acuerdo a las clases ó categorías de una variable A y a las clases ó categorías
de una variable B.

Sea "A" una característica con sus categorías a1, a2,…, ac y "B" una característica
con sus categorías b1, b2,..., bf

Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B

bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..

Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"
𝑓 𝑓
𝑛𝑖 . = ∑𝑐𝑗=1 𝑜𝑖𝑗 𝑛𝑖 . = ∑𝑖=1 𝑜𝑖𝑗 𝑛. . = ∑𝑖=1 ∑𝑐𝑗=1 𝑜𝑖𝑗

A los totales de filas y columnas se les conoce como totales marginales.

La ij–ésima frecuencia observada oij ( ) indica el número de veces que se repite


un elemento en las categorías i y j a la vez.

Dr. Jaime Carlos Porras Cerrón 249


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1.1. Prueba de Independencia


➢ Aspectos Generales
Con frecuencia un investigador está interesado en saber si dos variables
cualitativas son independientes o probablemente están relacionadas. Se dice
que dos variables son independientes si la distribución de una variable no
depende de la distribución del otro.
Esta prueba se aplica cuando los datos de una muestra aleatoria son
clasificados de acuerdo con dos características (variables) y lo que se desea
es probar si las características utilizadas como criterios de clasificación son
independientes entre sí o si existe alguna relación entre ellas.
En una prueba de independencia los totales marginales de filas y columnas son
aleatorios.

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

1.2. Contraste de Homogeneidad de Sub-Poblaciones


➢ Aspectos Generales
Esta prueba se aplica cuando se desea verificar si una característica tiene un
comportamiento semejante u homogéneo en dos o más poblaciones. Es decir,
las muestras correspondientes a "C" poblaciones son clasificadas de acuerdo a
las clases ó categorías de una característica "A".
En una prueba de homogeneidad de subpoblaciones uno de los totales
marginales de filas y columnas es aleatorio y el otro es fijo.
La prueba Chi-cuadrado se utiliza también para contrastar la homogeneidad de
varias muestras, es decir, si varias muestras pueden ser consideradas como
seleccionadas de una misma población.

➢ Supuestos
▪ Las muestras son seleccionadas al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

➢ Inferencia Estadística para ambas pruebas


Estas pruebas se aplican cuando se desea verificar si al menos una de las
frecuencias observadas (oij ) perteneciente a la ij-ésima categoría (mutuamente
excluyentes) difiere significativamente de su respectiva frecuencia teórica o
frecuencia esperada (eij ) .
▪ Definir si la prueba se trata de un contraste de homogeneidad de subpoblaciones
o un contraste de independencia.
▪ Calcular las frecuencias esperadas (eij ) de la siguiente manera:
   n. j 
e =np  e ij = np p  eij = n..  ni.     = ni. n. j
ij .. ij .. i. .j    eij
 n..   n..  n..

Dr. Jaime Carlos Porras Cerrón 250


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

▪ Aplicar la siguiente prueba estadística


Como medida de discrepancia, entre las frecuencias esperadas y observadas,
Pearson propuso el siguiente estadístico:
𝑓 𝑐
(𝑜𝑖𝑗 − 𝑒𝑖𝑗 )2 2
𝜒𝑐2 = ∑∑ ~𝜒[1−𝛼,(𝑓−1)(𝑐−1)]
𝑒𝑖𝑗
𝑖=1 𝑗=1

También se puede hacer uso de la prueba de razón de verosimilitud


r c  Oij 
G = 2 Oij ln   ~ (1− ,( f −1)( c −1) )
2
e
i =1 j =1  ij 

▪ Evaluar el valor calculado sobre la siguiente región crítica


Valores elevados del estadístico 2 evidencian discrepancias relevantes entre las
frecuencias observadas (oij ) y las esperadas (eij ) , por lo que deberá rechazarse
la hipótesis nula de que dicha muestra procede de una población con
probabilidades teóricas  i . Por lo tanto, si 𝜒𝑐2 > 𝜒[1−𝛼,(𝑓−1)(𝑐−1)]
2
se rechaza H0.

La hipótesis para la Prueba de Independencia es:


H0: Las variables X e Y son independientes (no están relacionadas)
H1: Las variables X e Y no son independientes (están relacionadas)

La hipótesis para la Prueba de Homogeneidad de Subpoblaciones es:


H0: Las subpoblaciones provienen de una misma población
H1: Las subpoblaciones no provienen de una misma población

Observaciones:
Si se tiene un solo grado de libertad para el valor crítico, el tamaño de la muestra
es pequeño (n50) o existe un valor esperado menor a 5, se puede hacer uso de
la Corrección de Yates, el cual hace un ajuste al estadístico 𝜒 2
𝑓 𝑐
(|𝑜𝑖𝑗 − 𝑒𝑖𝑗 | − 0.5)2 2
𝜒𝑐2 = ∑∑ ~𝜒[1−𝛼,(𝑓−1)(𝑐−1)]
𝑒𝑖𝑗
𝑖=1 𝑗=1
➢ Aplicación
Ejemplo 1: Prueba de Independencia
El jefe de una planta industrial desea determinar si existe relación entre el
rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra
aleatoria de 400 empleados y se obtuvo las frecuencias observadas que se
presentan en la siguiente tabla de contingencia:
Rendimiento Turno Laboral
en el trabajo Mañana Tarde Noche Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400

Dr. Jaime Carlos Porras Cerrón 251


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Con el nivel de significación 0.01, ¿La calificación del rendimiento del trabajador
está asociada con el turno en el que labora el empleado?

Solución:
H0: El rendimiento de un empleado en el trabajo es independiente del turno en el
que labora.
H1: El rendimiento de un empleado en el trabajo no es independiente del turno
en el que labora.
= 0.01
Prueba Estadística
f c (oij − eij ) 2
 = 
2
c ~ 21− ,( f −1)( c −1
i =1 j =1 eij
Desarrollo de la prueba

La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)

Rendimiento Turno Laboral


en el trabajo Mañana Tarde Noche Total
Deficiente 23 60 29 112
(16.80) (52.64) (42.56)
Promedio 28 79 60 167
(25.05) (78.49) (63.46)
Muy bueno 9 49 63 121
(18.15) (56.87) (45.98)
Total: 60 188 152 400

(23 − 16.80)2 (28 − 25.05)2 (63 − 45.98)2


𝜒𝑐2 = + + ...+ = 20.18
16.80 25.05 45.98

Criterios de decisión
library(fastGraph)
shadeDist(qchisq(0.01,4,lower.tail=F),"dchisq",4,lower.tail
=F)

Si 2 > 13.277 se rechaza H0


Si 2 ≤ 13.277 no se rechaza H0

Dr. Jaime Carlos Porras Cerrón 252


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Conclusión
Con nivel de significación 0.01 se puede afirmar que la calificación del
rendimiento real de un empleado en el trabajo está relacionada con el turno en
el que labora.

Ejemplo 2: Prueba de Homogeneidad

Muestras de tres tipos de materiales, sujetos a cambios extremos de


temperatura, produjeron los resultados que se muestran en la siguiente tabla:

Condición Material A Material B Material C Total


Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300

Use un nivel de significancia de 0.05 para probar si, en las condiciones


establecidas, la probabilidad de desintegración es diferente en al menos uno de
los tres tipos de materiales.

Solución
Formulación de las hipótesis

H0: La probabilidad de desintegración no difiere los tres tipos de materiales.


H1: La probabilidad de desintegración es diferente en al menos uno de los tres
tipos de materiales.

=0.05
Prueba Estadística
f c (oij − eij ) 2
 = 
2
c ~ 21− ,( f −1)( c −1)
i =1 j =1 eij

Desarrollo de la Prueba

Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300

(41 − 36)2 (79 − 84)2 (78 − 70)2


𝜒𝑐2 = + + ...+ = 4.575
36 84 70

Dr. Jaime Carlos Porras Cerrón 253


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Criterios de decisión
shadeDist(qchisq(0.05,2,lower.tail=F),"dchisq",2,lower.tail
=F)
No se rechaza H0 si: 2c  5.9915
Se rechaza H0 si: 2c  5.9915

Conclusión
Con nivel de significación 0.05 no existe suficiente evidencia estadística para
rechazar la hipótesis nula.
Por lo tanto, no se puede afirmar que la probabilidad de desintegración es
diferente en al menos uno de los tres tipos de materiales

➢ Secuencia en R
En R existen
La función chisq.test que permite obtener el resultado para ambas pruebas.
chisq.test(x,y) o chisq.test(tabla)
La función assocstats del paquete vcd permite obtener adicionalmente la prueba
de Razón de Verosimilutud.
La función CrossTable del paquete gmodels también permite obtener varias
pruebas para tablas de contingencia, pero solo se puede utilizar con datos sin
agrupar.
La función chisq_test del paquete rstatix permite obtener la prueba Chi
Cuadrado.

➢ Resultados con R
tabla<-matrix(c(23,60,29,28,79,60,9,49,63),3,3,byrow=TRUE)
chisq.test(tabla)

Pearson's Chi-squared test


data: tabla
X-squared = 20.1789, df = 4, p-value = 0.0004604

tabla<-matrix(c(41,27,22,79,53,78),2,3,byrow=TRUE)

library(vcd)
assocstats(tabla)

Dr. Jaime Carlos Porras Cerrón 254


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
X^2 df P(> X^2)
Likelihood Ratio 4.7265 2 0.094113
Pearson 4.5754 2 0.101500

library(rstatix)
chisq_test(tabla)

# A tibble: 1 x 6
n statistic p df method p.signif
* <dbl> <dbl> <dbl> <int> <chr> <chr>
1 400 20.2 0.00046 4 Chi-square test ***

➢ Algunas consideraciones en R
▪ Si realiza la corrección de Yates solo para tablas 2x2
▪ Permite hacer la prueba para datos agrupados y sin agrupar en una tabla de
contingencia.

Dr. Jaime Carlos Porras Cerrón 255


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1.3. Prueba Exacta de Fisher


➢ Aspectos Generales
Es una prueba muy buena para analizar variables nominales binarias que
provienen de dos muestras independientes que son pequeñas.
Las observaciones de cada una de las muestras son clasificadas en una de las
dos categorías con las que cuenta la variable de interés. Es decir, se debe formar
una tabla de contingencia 2x2.
La prueba determina si los dos grupos difieren en las proporciones en la
clasificación de la variable en estudio.

Ronald Aylmer Fisher


(1890 – 1962)

➢ Supuestos
▪ Las dos muestras son seleccionadas al azar.
▪ Las muestras son independientes.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

➢ Inferencia Estadística
Para llevar a cabo la prueba se debe realizar lo siguiente:
▪ Clasificar las muestras en las 2 categorías de la variable de interés, de tal manera
que se forme una tabla de contingencia 2x2 de la siguiente manera:

Grupo
Variable Combinación
I II
+ A B A+B
- C D C+D
Total A+C B+D n

Se desea determinar si los grupos I y II difieren significativamente en la


proporción de signos más (+) y signos menos (-) pertenecientes a cada grupo.
Para ello se debe calcular la probabilidad exacta de observar un conjunto
particular de frecuencias en una tabla 2x2, cuando los totales marginales se
consideran fijos, la cual está dada por la distribución hipergeométrica.

Dr. Jaime Carlos Porras Cerrón 256


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

 A + C  B + D 
  
 A  B  ( A + B )! (C + D )! ( A + C )! (B + D )!
p= =
 n  n! A! B! C! D!
 
 A + B

Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : 1 =  2 H 0 : 1 =  2 H 0 : 1 =  2
H1 :  1   2 H1 :  1   2 H1 :  1   2

➢ Aplicación
Se tienen dos grupos de pacientes (hombres y mujeres) a los que se les
proporcionó un analgésico. Los resultados (mejoró (+) ó no mejoró (-)) luego de
un periodo son los siguientes:

Grupo
Variable Combinación
Mujeres Hombres
Mejoró(+) 5 1 6
No mejoró (-) 2 7 9
Total 7 8 15

Pruebe si la proporción de mujeres que mejoró supera a la proporción de


hombres que mejoró luego de proporcionado el analgésico. Use =0.05

H 0 : 1 =  2
H1 :  1   2
=0.05

p1=5/7 p2=1/8 entonces p1-p2=0.714-0.125 = 0.589, se deben encontrar todas las


tablas con combinaciones superiores a 0.589. Esto solo ocurre para las tablas I
y II por lo que el pvalor es igual a 0.0014+0.0336=0.035

Dr. Jaime Carlos Porras Cerrón 257


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Conclusión
A un nivel de significación de 0.05, se puede afirmar que la proporción de mujeres
que mejoró luego de aplicado el analgésico es superior a la proporción de
hombres que mejoró luego de aplicado el analgésico.

Si la hipótesis hubiese sido


H 0 : 1 =  2
H1 :  1   2
Para calcular el pvalor se considerarían los valores más extremos a 0.589 en
valor absoluto, por lo que el valor se calcularía de la siguiente manera:
pvalor= 0.0014+ 0.0336 + 0.0056 = 0.041

➢ Secuencia en R
Existe las funciones
fisher.test del paquete stats
fisher.test(x,y, alternativa) o fisher.test(tabla, alternativa)
fisher_test del paquete rstatix

➢ Resultados con R
tabla<-matrix(c(5,2,1,7),2,2)
fisher.test(tabla,alternative="g")

Dr. Jaime Carlos Porras Cerrón 258


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Fisher's Exact Test for Count Data


data: tabla
p-value = 0.03497
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
1.179718 Inf
sample estimates:
odds ratio
13.59412

fisher_test(tabla,alternative = "g")

# A tibble: 1 x 3
n p p.signif
* <dbl> <dbl> <chr>
1 15 0.035 *

➢ Algunas en R
▪ Realiza los casos bilateral y unilateral.
▪ Se puede realizar la prueba con los datos sin agrupar o agrupados en una tabla
de contingencia 2x2.

Dr. Jaime Carlos Porras Cerrón 259


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1.4. Prueba de Mantel-Haenszel-Cochran


➢ Aspectos Generales
Esta prueba utiliza tres variables; la primera es considerada como estratos (o
capas) y dentro de cada una de ella se clasifican las otras dos variables.
Si cada una de las tablas que se forma en su respectivo estrato proviene de un
estudio independiente, la prueba de Mantel-Haenszel-Cochran es una
herramienta que estudia en forma conjunta como un metaanálisis.
Esta prueba supone que no hay interacción entre las tres variables en estudio.

William M. Haenszel Nathan Mantel William G. Cochran


(1910 – 1998) (1919 – 2002) (1909 – 1980)

➢ Supuestos
▪ Las muestras son seleccionadas al azar.
▪ Las muestras son independientes.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

➢ Inferencia Estadística
▪ Clasificar dentro de cada estrato las variables de interés.
▪ Se denomina p1i a la proporción de elementos de la primera fila que caen en la
primera columna y p2i a la proporción de elementos de la segunda fila que caen
en la primera columna de la tabla i.
▪ En cada tabla i hay ni observaciones, todas ellas pueden ser categorizadas como
del tipo 1 (ri de ellos) o del tipo 2 (ni-ri de ellos). Si ci elementos son seleccionados
del total de los ni elementos, la probabilidad que exactamente xi de los elementos
seleccionados son del tipo 1 es:

 ri   ni − ri 
 x  c − x 
 i  i i 

 ni 
c 
 i

Dr. Jaime Carlos Porras Cerrón 260


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

De igual manera, todos los elementos pueden ser categorizados como del tipo A
(ci de ellos) o del tipo B (ni-ci de ellos), la probabilidad de que exactamente xi de
los seleccionados son del tipo A es:
 ci   ni − ci 
 x  r − x 
 i  i i 

 ni 
r 
 i
De seguro que las dos probabilidades son iguales
 ri   ni − ri   ci   ni − ci 
 x  c − x   x  r − x 
 i  i i 
=  i  i i 

 ni   ni 
c  r 
 i  i
Esas son probabilidades hipergeométricas con media y varianza:
i i ( ni − ri )( ni − ci )
ri ci y rc
ni ni2 ( ni − 1)
Los k estratos son independientes por lo que el estadístico es:
k k
rc
x − n
i =1
i
i =1
i i

T= i
~ N (0,1)
i i ( ni − ri )( ni − ci )
k
rc

i =1 ni2 ( ni − 1)

Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 :  1i =  2i H 0 :  1i =  2i H 0 :  1i =  2i
H1 :  1i   2i H1 :  1i   2i H1 :  1i   2i

Se desea probar si esto sucede en todos los estratos. Es decir, si la proporción


de éxitos con respecto a una categoría es diferente, mayor o menor a la
proporción de éxitos con respecto a la otra categoría en todos los estratos en
estudio.

➢ Aplicación
Se tiene tablas 2x2 de la clasificación de personas de 3 localidades con respecto
a su hábito de fumar y su diagnóstico de cáncer. Los resultados se presentan a
continuación:

Localidad 1 Localidad 2 Localidad 3


Diagnos. Diagnos. Diagnos.
Tipo Total Tipo Total Tipo Total
Si No Si No Si No
Fumador 3 1 4 Fumador 20 6 26 Fumador 4 1 5
No Fum 3 2 5 No Fum. 22 13 35 No Fum. 12 4 16
Total 6 3 9 Total 42 19 61 Total 16 5 21

Dr. Jaime Carlos Porras Cerrón 261


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Pruebe si la proporción de incidencia de cáncer para fumadores y no fumadores


no coincide en las 3 localidades. Use =0.05.

H 0 :  1i =  2i
para  i=1,2,3
H1 :  1i   2i

=0.05

Prueba Estadística

Desarrollo de la prueba estadística


k

x
i =1
i =3 + 20 + 4 = 27

k
ri ci (6)(4) + (42)(26) + (16)(5) =
n i =1
=
9 61 21
i

i i ( ni − ri )( ni − ci ) ( 4 )( 6 )( 5)( 3) ( 26 )( 42 )( 35)(19 ) (5)(16 )(16 )(5)


k
rc

i =1 n 2
( n − 1 )
=
( 9 ) (8 )
2
+
( 61) ( 60 )
2
+
( 21) ( 20 )
2
= 4.533
i i
k k
rc
i =1
xi −  i i
i =1 ni 27 − 24.378
T= = = 1.232
k
rc ( n − r )( n − c ) 4.533
i =1
i i i i

ni ( ni − 1)
2
i i

pvalor<- 2*(1-pnorm(1.232))
0.2179491

Criterios de decisión
shadeDist(qnorm(c(0.025,0.975),lower.tail=F),"dnorm")
No se rechaza H0 si: -1.96<Zcal  1.96
Se rechaza H0 si: Zcal  1.96 o Zcal>-
1.96

Dr. Jaime Carlos Porras Cerrón 262


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Conclusión
A un nivel de significación de 0.05, no se puede afirmar que la proporción de
incidencia de cáncer para fumadores y no fumadores no coincide en las 3
localidades.

➢ Secuencia en R
Existe la función mantelhaen.test, en donde se debe indicar el conjunto de datos
como un arreglo
mantelhaen.test(tabla, alternativa)

➢ Resultados con R
tabla<-array(c(3,3,1,2,20,22,6,13,4,12,1,4),dim=c(2,2,3))
mantelhaen.test(tabla)

Mantel-Haenszel chi-squared test with continuity


correction
data: tabla
Mantel-Haenszel X-squared = 0.9933, df = 1, p-value = 0.3189
alternative hypothesis: true common odds ratio is not equal
to 1
95 percent confidence interval:
0.6984315 4.9240804
sample estimates:
common odds ratio
1.85449

mantelhaen.test(tabla,correct=FALSE)

Mantel-Haenszel chi-squared test without continuity


correction
data: tabla
Mantel-Haenszel X-squared = 1.5166, df = 1, p-value = 0.2181
alternative hypothesis: true common odds ratio is not equal
to 1
95 percent confidence interval:
0.6984315 4.9240804
sample estimates:
common odds ratio
1.85449

➢ Algunas consideraciones de los programas estadísticos


En R
▪ Se puede realizar la prueba con los datos sin agrupar.
▪ Analiza los casos bilateral y unilateral.

Dr. Jaime Carlos Porras Cerrón 263


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

2. Medidas de Asociación
En el proceso de investigación, se puede desear conocer si dos variables están
relacionadas y si es así determinar cuál es su grado de relación.
En esta sección se presentará medidas de correlación no paramétrica y sus
respectivas pruebas estadísticas que permiten determinar la significación de la
asociación observada. El problema de medir el grado de asociación entre dos
variables es más general que el de probar la existencia de algún grado de
asociación.
En el caso paramétrico, la medida usual de correlación es el coeficiente de
Pearson. Este estadístico requiere que las variables estén medidas en al menos
una escala de intervalo, para una adecuada interpretación del estadístico.
Si deseamos probar la significación del este coeficiente, debemos no sólo utilizar
la medida requerida, sino también verificar que las observaciones provengan de
una distribución normal bivariada.
El coeficiente de correlación de Pearson mide el grado en el cual existe una
relación lineal entre las variables.
Si para un conjunto de datos los supuestos antes mencionados no son
sostenibles, entonces se debe usar un coeficiente de correlación alternativo
como es el caso de los coeficientes de Spearman o de Kendall.

2.1 Coeficiente V de Cramer


➢ Aspectos Generales
Es una medida del grado de asociación o relación entre dos variables
cualitativas. Se usa únicamente cuando se tiene datos categóricos en escala
nominal. El coeficiente de Cramer, al ser calculado de una tabla de contingencia,
proporciona los mismos valores sin considerar cómo fueron ordenadas las
categorías en las filas y columnas.

Harald Cramer
(1893 – 1985)

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

➢ Inferencia Estadística
▪ Con las variables A, con categorías A1, A2, …,Ak y B con categorías B1, B2, …,
Br, obtener la siguiente tabla de contingencia:

Dr. Jaime Carlos Porras Cerrón 264


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

A1 A2 … Ak Total
B1 n11 n12 … n1k R1
B2 n21 n22 … n2k R2
: : : : :
Br nr1 nr2 … nrk Rr
Total C1 C2 … Ck n

Los datos pueden consistir en cualquier número de categorías, es decir, se


puede calcular un coeficiente V de Cramer para datos en una tabla rxk.

▪ Calcular el coeficiente de Cramer mediante:


2
V=
n( L − 1)
Donde:
r k (nij − eij ) 2 r k nij
 =  = 
y L = min(r,k)
2
−n
i =1 j =1 eij i =1 j =1 eij

Mientras mayor sea la asociación entre las dos variables será más grande el
valor del coeficiente de Cramer. El coeficiente de Cramer varía entre 0 y 1.

Hipótesis
H0: No existe asociación entre las variables X e Y. H0:  = 0
H1: Existe asociación entre las variables X e Y. H1:   0

Podemos probar si una V observada difiere significativamente de cero


simplemente al determinar la significación del estadístico 2 para la tabla de
contingencia asociada, debido a que V es una función lineal de 2. Ya que
sabemos que la distribución muestral de 2, conocemos la de V2 y por tanto, la
de V.
Para cualquier tabla de contingencia rxk, podemos determinar la significación del
grado de asociación (la significación de V) averiguando la probabilidad asociada
con la ocurrencia, cuando H0 es cierta, de valores tan grandes a los valores
observados de 2, con (r-1)(k-1) grados de libertad. Si la 2 para el estadístico de
la muestra es significativo, entones podemos concluir que en la población la
asociación entre las dos series de atributos no es cero, esto es, que los atributos
o las variables no son independientes.

En general, es deseable que un índice de asociación muestre al menos las


siguientes características:
▪ Cuando las variables sean independientes y exista una carencia completa
de asociación entre las variables, el valor del índice debe ser cero.

Dr. Jaime Carlos Porras Cerrón 265


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
▪ Cuando las variables muestren completa dependencia una de la otra, esto
es, cuando estén perfectamente asociadas, el estadístico debe ser igual
a la unidad.

El coeficiente V de Cramer tiene algunas limitaciones y es por esa razón que han
aparecido otros coeficientes alternativos como: Coeficiente de contingencia
corregido de Pawlik, Cuadrado medio de contingencia, Coeficiente de
Tschuprow, entre otros.
Algunas limitaciones del coeficiente V de Cramer son:
▪ El coeficiente V de Cramer tiene la primera característica es igual a cero
cuando no existe asociación entre las variables en la muestra. Sin
embargo, cuando es igual a la unidad, pudiera no ser una asociación
“perfecta” entre las variables.

▪ Una segunda limitación de V es que los datos deben ser fáciles de usar
con el estadístico 2, con el propósito que su significación pueda ser
interpretada apropiadamente, esto es la prueba Chi Cuadrado solo debe
aplicarse sólo si menos del 20% de las celdas en la tabla de contingencia
tienen frecuencias esperadas menores que cinco y ninguna celda tiene
una frecuencia esperada menor que uno.

▪ Una tercera limitación de V es que no resulta directamente comparable


con cualquier otra medida de correlación, por ejemplo, la r de Pearson, la
rs de Spearman o la T de Kendall). Estas medidas se aplican a variables
ordenadas, mientras que el coeficiente de Cramer es apropiado para
usarse con variables categóricas (escala nominal).

A pesar de estas limitaciones, el coeficiente de Cramer es una medida de


asociación extremadamente útil debido a su amplia aplicabilidad. Dicho
coeficiente no hace suposiciones acerca de la forma de las distribuciones
poblacionales de donde provienen las variables que están siendo evaluadas.

Otra ventaja del coeficiente V de Cramer es que permite al investigador comparar


tablas de contingencia de diferentes tamaños y lo más importante, tablas
basadas en diferentes tamaños de muestra. Aunque el estadístico 2 no mide la
independencia de dos variables, es sensible al tamaño de la muestra. El
coeficiente V de Cramer hace que las comparaciones de las relaciones obtenidas
en diferentes tablas resulten más fáciles.

➢ Aplicación
Koch & Edwards (1988) realizaron un ensayo clínico doble ciego que investiga
un nuevo tratamiento para la artritis reumatoide. En un experimento doble ciego,
ni los individuos participantes ni los investigadores saben quién pertenece
al grupo de control (el que recibe placebos) y quién es el grupo experimental.
Solamente después de haberse recolectado todos los datos, y concluido el
experimento, los investigadores conocen qué individuos pertenecen a cada
grupo.

Dr. Jaime Carlos Porras Cerrón 266


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Utilice las variables Treatment y Improved del conjunto de datos Arthritis del
paquete vcd para obtener el coeficiente de Cramer y evaluar su significancia a
un =0.05.
H0:  = 0
H1:   0
=0.05
2 13.055
V= = = 0.3942
n( L − 1) 84 ( 2 − 1)
2 = 13.055
Pvalor=0.001 <  se rechaza H0
Conclusión
A un =0.05, se puede afirmar que el coeficiente de asociación V de Cramer es
significativo.

➢ Secuencia en R
Existe la función cramersV del paquete lsr
cramersV(tabla)
La función assocstats del paquete vcd también permite obtener el coeficiente V
de Cramer y otras medidas de asociación
assocstats(tabla)
Se puede hacer uso de la función cramer del paquete sjstats para obtener el
coeficiente.
Las funciones Assocs y CramerV del paquete DescTools también permiten
obtener el coeficiente V de Cramer
CramerV(tabla)
Assocs(tabla)

➢ Resultados con R
library(vcd)
data("Arthritis")
tabla<-table(Arthritis[,2],Arthritis[,5])
assocstats(tabla)

X^2 df P(> X^2)


Likelihood Ratio 13.530 2 0.0011536
Pearson 13.055 2 0.0014626

Phi-Coefficient : 0.394
Contingency Coeff.: 0.367
Cramer's V : 0.394

library(sjstats)
cramer(tabla)
[1] 0.3942295

Dr. Jaime Carlos Porras Cerrón 267


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

library(lsr)
cramersV(tabla)
[1] 0.3942295

library(DescTools)
CramerV(tabla)
[1] 0.3942295

Assocs(tabla)

estimate lwr.ci upr.ci


Phi Coeff. 3.9420e-01 - -
Contingency Coeff. 3.6680e-01 - -
Cramer V 3.9420e-01 1.5650e-01 5.9580e-01

➢ Algunas consideraciones con R


▪ Brinda el V de Cramer.
▪ Presenta en el resultado del V de Cramer la evaluación de su significancia para
la función assocstats.

Dr. Jaime Carlos Porras Cerrón 268


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

2.2 Coeficiente de Contingencia de Pearson


➢ Aspectos Generales
Es una medida del grado de asociación alternativo al V de Cramer. Para poder
estimarlo se debe construir primero una tabla de contingencia.

Karl Pearson
(1857 – 1936)

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar.

➢ Inferencia Estadística
▪ Construir la tabla de contingencia.
▪ Calcular el estadístico Chi Cuadrado
▪ Calcular el coeficiente de Contingencia de Pearson mediante:
2
C=
2 + n
Donde:
(n − eij )
2
r k r k nij
 =  =  −n
2 ij

i =1 j =1 eij i =1 j =1 Eij

Mientras mayor sea la asociación entre las dos variables será más grande el
valor del coeficiente de contingencia de Pearson. El coeficiente de Contingencia
de Pearson varía entre 0 y Cmax.

El máximo valor del coeficiente de contingencia depende de la dimensión de la


tabla de contingencia.
Si la tabla de contingencia es cuadrada (rxr), entonces r −1
Cmax =
r
Si la tabla de contingencia es de dimensión (rxk), entonces L=min(r,k)
L −1
Cmax =
L

Dr. Jaime Carlos Porras Cerrón 269


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Hipótesis
H0: No existe asociación entre las variables X e Y. H0:  = 0
H1: Existe asociación entre las variables X e Y. H1:   0

Al igual que el coeficiente V de Cramer, para probar si  difiere significativamente


de cero simplemente al determinar la significación del estadístico 2 para la tabla
de contingencia asociada.

➢ Aplicación
Utilice las variables Treatment y Improved del conjunto de datos Arthritis del
paquete vcd provenientes del estudio de Koch & Edwards (1988) para obtener el
coeficiente de Contingencia. Evalúe su significancia a un =0.05.

H0:  = 0
H1:   0
=0.05
2 13.055
V= = = 0.367
2 + n 13.055 + 84
2 = 13.055
Pvalor=0.001 <  se rechaza H0

Conclusión
A un =0.05, se puede afirmar que el coeficiente Contingencia es significativo.

➢ Secuencia en R
Existe la función assocstats del paquete vcd
assocstats(tabla).
También dentro del paquete DescTools, se pueden utilizar las funciones
ContCoef o Assocs
ContCoef(tabla)
Assocs(tabla)

➢ Resultados con R
library(vcd)
assocstats(tabla1)
X^2 df P(> X^2)
Likelihood Ratio 13.530 2 0.0011536
Pearson 13.055 2 0.0014626

Phi-Coefficient : NA
Contingency Coeff.: 0.367
Cramer's V : 0.394

library(DescTools)
ContCoef(tabla1)
[1] 0.3667581

Dr. Jaime Carlos Porras Cerrón 270


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Assocs(tabla1)
estimate lwr.ci upr.ci
Phi Coeff. 3.9420e-01 - -
Contingency Coeff. 3.6680e-01

➢ Algunas consideraciones en R
▪ Solo la función assocstats permite evaluar la significancia del coeficiente de
Contingencia.

Dr. Jaime Carlos Porras Cerrón 271


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

2.3 Coeficiente Phi


➢ Aspectos Generales
Es una evaluación de la asociación o relación entre dos variables medidas en
una escala nominal, cada uno de los cuales puede tomar sólo dos valores. De
hecho, es idéntico en valor al coeficiente de Cramer.
También es conocido como coeficiente de Matthews.

Brian W. Matthews
(1938 – actualidad)

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala nominal u ordinal y si se trabaja con
variables de tipo intervalo o razón se deben categorizar en una variable binaria.

➢ Inferencia Estadística
▪ Arreglar los datos en una tabla 2x2. Ya que los datos son dicotómicos,
supondremos que los datos son codificados como cero y uno para cada variable,
aunque puede ser usada cualquier asignación del valor binario.

Variable Y Variable X Total


0 1
1 A B A+B
0 C D C+D
Total A+C B+D N

▪ El coeficiente Phi para una tabla 2x2 es definido como:

AD − BC
r =
( A + B )( C + D )( A + C )( B + D )
Cuyo rango puede ser desde cero hasta uno.
▪ El coeficiente Phi está relacionado con el estadístico 2 que se usa para probar
la independencia de variables categóricas (medidas nominalmente). De aquí que
la significación del coeficiente Phi puede probarse al usar el estadístico 2.

Dr. Jaime Carlos Porras Cerrón 272


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

n ( AD − BC − n 2 )
2

 =
2
~  (21− ,1)
( A + B )( C + D )( A + C )( B + D )
Hipótesis
H0: No existe relación entre las variables X e Y. H0:  = 0
H1: Existe relación entre las variables X e Y. H1:   0

➢ Aplicación
En una segunda vuelta electoral para la elección presidencial se quiere analizar
si existe relación entre los candidatos y el género del elector. Se seleccionó una
muestra aleatoria de electores, obteniéndose los siguientes resultados:

Candidato
Género
A B
Masculino 29 12
Femenino 44 26

Calcule el coeficiente phi y evalúe su significancia a un =0.05.


H0:  = 0
H1:   0
=0.05
r=0.08
2= 0.712
Pvalor=0.399
Conclusión
A un =0.05, no se puede afirmar que existe relación entre el género y el
candidato de preferencia en la segunda vuelta electoral.

➢ Secuencia en R
Existe la función phi del paquete psych
phi(tabla)
La función assocstats del paquete vcd también permite obtener el coeficiente Phi
y otras medidas de asociación
assocstats(tabla).
El paquete DescTools con sus funciones Assocs y Phi también permiten obtener
el Coeficiente Phi.
Assocs(tabla)
Phi(tabla)
Existe la función phi del paquete misty.

➢ Resultados con R
library(vcd)
tabla<-matrix(c(29,44,12,26),2,2)
assocstats(tabla)

Dr. Jaime Carlos Porras Cerrón 273


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
X^2 df P(> X^2)
Likelihood Ratio 0.72046 1 0.39599
Pearson 0.71212 1 0.39874

Phi-Coefficient : 0.08
Contingency Coeff.: 0.08
Cramer's V : 0.08

library(psych)
phi(tabla)
[1] 0.08

library(DescTools)
Phi(tabla2)
[1] 0.01800945

Assocs(tabla2)
estimate lwr.ci upr.ci
Phi Coeff. 1.8000e-02 - -
Contingency Coeff. 1.8000e-02 - -

library(misty)
tabla<-matrix(c(29,44,12,26),2,2)
tab<-as.table(tabla)
phi(tab)
[1] 0.08009663

➢ Algunas consideraciones en R
▪ Brinda el coeficiente Phi y su significancia para la función assocstats.

Dr. Jaime Carlos Porras Cerrón 274


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

3. Medidas de Correlación
1.1. Coeficiente de Correlación rs de Spearman de rangos ordenados
➢ Aspectos Generales
El coeficiente de correlación de Spearman mide el grado de asociación entre dos
variables cuantitativas que siguen una tendencia siempre creciente o
decreciente. Es decir, es más general que el coeficiente de correlación de
Pearson, el cual asume que la relación entre las dos variables es lineal, la
correlación de Spearman en cambio se puede calcular para las relaciones
exponenciales o logarítmicas entre las variables.
Es una medida de asociación entre dos variables que requiere que ambas estén
medidas en al menos una escala ordinal, de tal manera que los elementos en
estudio puedan ser colocados en rangos en dos series ordenadas.

Charles Edward Spearman


(1863 – 1945)

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala al menos ordinal.

➢ Inferencia Estadística
▪ Se obtiene los rangos para cada una de las variables (X e Y) de manera
independiente.
▪ Se calcula la diferencia de rangos di para cada pareja de observaciones,
restando el rango de Yi menos el rango de Xi.
▪ Se eleva al cuadrado cada di y se calcula la suma de estos valores.
▪ Se calcula:
n
6 d i2
rs = 1 − i =1

n(n − 1)
2

Cuando ocurren puntuaciones empatadas, a cada una de ellas se le asigna el


promedio de los rangos.
Si la proporción de las observaciones empatadas no es grande, su efecto sobre
rs es insignificante y puede usarse la expresión presentada anteriormente. Si la
proporción de empates es grande, entonces debe incorporarse un factor de
corrección en el cálculo de rs.

Dr. Jaime Carlos Porras Cerrón 275


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

(n )
− n − 6 d i2 − (Tx + T y ) 2
n
3

rs = i =1

(n 3
)2
( )
− n − (Tx + T y ) n 3 − n + Tx T y
Donde

( )
g
Tx =  t i3 − t i , donde g es el número de grupos de diferentes rangos
i =1
empatados y ti es número de elementos empatados en el i-ésimo grupo.

Prueba de significación de rs
Se puede probar la hipótesis nula de que las dos variables en estudio no están
asociadas (son independientes) contra la hipótesis H1 que existe asociación
entre X e Y (una prueba bidireccional) o existe una asociación positiva (o
negativa) entre X e Y (una prueba unidireccional).

Cuando n es superior a 20, la significación de rs puede ser probada mediante el


estadístico
z = rs n − 1 ~ N (0,1)
También se puede hacer uso del estadístico
n−2
t = rs ~ t (n − 2 )
1 − rs2

Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H0 : s = 0 H0 : s = 0 H0 : s = 0
H1 :  s  0 H1 :  s  0 H1 :  s  0

Las hipótesis especificadas en el número a) conducen a una prueba bilateral y


se utilizan cuando se desea descubrir cualquier desviación de la independencia.
Las pruebas unilaterales indicadas en los números b) y c) se utilizan,
respectivamente, cuando el investigador desea saber si puede concluir que las
variables están directa o inversamente correlacionadas.

➢ Aplicación
La tabla siguiente muestra los consumos de calorías (cal/día/Kg) y de oxígeno
VO2 (ml/min/Kg.) de 10 niños.

N° de Consumo VO2
Rango Rango
niño de calorías (Y)
(X) (Y)
di d i2
(X)
1 50 7.0 2 1 -1 1
2 70 8.0 3 2 -1 1
3 90 10.5 5 6 1 1
4 120 11.0 8 8 0 0

Dr. Jaime Carlos Porras Cerrón 276


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
5 40 9.0 1 3 2 4
6 100 10.8 6 7 1 1
7 150 12.0 9 10 1 1
8 110 10.0 7 5 -2 4
9 75 9.5 4 4 0 0
10 160 11.9 10 9 -1 1
Total 14

Pruebe la hipótesis nula de que las dos variables son mutuamente


independientes, contra la alternativa de que están directamente relacionadas.
Use =0.05.

Solución
H0: Los consumos de calorías y de oxígeno VO2 son mutuamente excluyentes.
H0: ρs = 0
H1: Los consumos de calorías y de oxígeno VO2 están directamente
relacionadas. H1: ρs > 0
=0.05
Prueba Estadística
n
6 d i2
rs = 1 − i =1

n(n 2 − 1)

Criterio de Decisión
No se rechaza H0 si rs  0.5515
Se rechaza H0 si rs > 0.5515

Desarrollo de la Prueba
6(14) 84
rs = 1 − = 1− = 0.915
10(10 − 1)
2
990
Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que los consumos de calorías y de oxígeno VO 2
están directamente relacionados.

➢ Secuencia en R
Existe la función cor.test del paquete Stat
cor.test(x,y,método=spearman, alternativa)
También existe el paquete pspearman con la función spearman.test
spearman.test(x,y,alternativa,aproximación)

➢ Resultados con R
x<-c(50,70,90,120,40,100,150,110,75,160)
y<-c(7,8,10.5,11,9,10.8,12,10,9.5,11.9)
cor.test(x,y,method="spearman",alternative="g")

Dr. Jaime Carlos Porras Cerrón 277


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Spearman's rank correlation rho

data: x and y
S = 14, p-value = 0.0002334
alternative hypothesis: true rho is greater than 0
sample estimates:
rho
0.9151515

➢ Algunas consideraciones en R
▪ Permite analizar los casos unilaterales y bilaterales.

Dr. Jaime Carlos Porras Cerrón 278


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1.2. Coeficiente de Correlación Txy de Kendall


➢ Aspectos Generales
Otro indicador para poder analizar la correlación entre dos variables que se
encuentran medidas en al menos escala ordinal es el coeficiente de correlación
de Kendall
Una ventaja de T sobre el coeficiente de correlación de Spearman es que T
puede ser generalizada a un coeficiente de correlación parcial.

Maurice George Kendall


(1907 – 1983)

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala al menos ordinal.

➢ Inferencia Estadística
▪ Primero se debe calcular el coeficiente de correlación de Kendall como el número
de acuerdos menos el número de desacuerdos entre el número total de
combinaciones tomados en dos.
Por ejemplo:
Supóngase que para poner el rango de calidad de cuatro objetos (a, b, c y d)
preguntamos a los jueces X e Y.

Ensayo a b c d
Juez X 3 4 2 1
Juez Y 3 1 4 2

Si arreglamos el orden de los ensayos de tal modo que los rangos del juez X
aparezcan en orden natural (1, 2, ... , n) tenemos:

Ensayo d c a b
Juez X 1 2 3 4
Juez Y 2 4 3 1

Ahora se puede determinar el grado de correspondencia entre los jueces X e Y,


es decir, cuántos pares de rangos en el conjunto del juez Y están en su orden
correcto, respecto a aquellos del juez X. Considérese primero todos los posibles

Dr. Jaime Carlos Porras Cerrón 279


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
pares de rangos en los cuales el rango del juez Y es 2 (el primer rango en este
conjunto) y los miembros posteriores del lado derecho, se le asigna un +1 si el
orden es correcto y -1 si el orden es incorrecto. Las comparaciones lo podríamos
resumir en la siguiente tabla:

Juez X 1 2 3 4
Juez Y 2 4 3 1 Total
2→ + + - 1
4→ - - -2
3→ - -1
1→ 0
Gran total -2

Así el número total de acuerdos en el ordenamiento menos el número


desacuerdos en el ordenamiento entre los rangos es -2. El número total de
posibles comparaciones es:

 n  4
 2 =  2 = 6
   

El coeficiente de correlación por orden de rangos de Kendall es la razón:


#de acuerdos - # de desacuerdos −2 1
T= = = − = −0.333
# total de pares 6 3

En general, el máximo posible total será


 n  n ( n − 1)
 2 =
  2

Si denominamos la suma observada de puntuaciones +1 (acuerdos) y


puntuaciones -1 (desacuerdos) para todos los pares como S, entonces el
coeficiente de correlación de Kendall es:
2S
T=
n ( n − 1)

Cuando dos o más observaciones están empatadas ya sea en la variable X o Y,


utilizamos nuestro procedimiento usual de colocar los rangos a las puntuaciones
empatadas; se les da a la observación ligadas el promedio de los rangos que
deberían haber recibido si no hubiera habido empates.
El efecto de los empates es cambiar el denominador de nuestra ecuación para
T. En el caso de empates, T se convierte en:
2S
T=
n ( n − 1) − Tx n ( n − 1) − Ty

Donde
Tx =  t ( t − 1) Ty =  t ( t − 1)

Dr. Jaime Carlos Porras Cerrón 280


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Siendo t el número de observaciones empatadas en cada grupo de empates en


la variable X e Y respectivamente

x<-c(3,4,2,1)
y<-c(3,1,4,2)
cor(x,y,method="kendall")
[1] -0.3333333

El coeficiente de correlación de Spearman se interpreta de igual manera que el


coeficiente de Pearson, calculado entre variables cuyos valores consisten en
rangos. Por otra parte, el coeficiente de correlación de rangos de Kendall tiene
interpretación diferente, esta es la diferencia entre la probabilidad de que, en los
datos observados X e Y estén en el mismo orden y la probabilidad de que los
datos de X e Y estén en un orden diferente.

▪ Para evaluar la significancia del coeficiente de Kendall, se considera que si una


muestra aleatoria se extrae de alguna población en la cual X e Y no están
relacionadas y se les ponen rangos a los miembros de la muestra en X e Y,
entonces para cualquier orden dado de los rangos de X, todos los posibles
ordenes de rangos de Y son igualmente probables. Supóngase que ordenamos
los rangos de X en orden natural, 1, 2,.., n; para este orden, todos los n! posibles
órdenes de rangos de Y son igualmente probables según H0. Por tanto, cualquier
orden particular de los rangos de Y tiene una probabilidad de ocurrencia, cuando
H0 es cierta, de 1/n!.
Para cada uno de los n! posibles rangos de Y, existirá un valor asociado, estos
posibles valores de T variarán desde -1 hasta +1 y pueden ser obtenidos en una
distribución de frecuencias, pero naturalmente al aumentar el valor de n este
método se vuelve más tedioso.
Si la muestra es grande, la distribución de T se aproxima a la distribución normal:
3T n ( n − 1)
z= ~ N ( 0,1)
2 ( 2n + 5 )
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 :  xy = 0 H 0 :  xy = 0 H 0 :  xy = 0
H1 :  xy  0 H1 :  xy  0 H1 :  xy  0

➢ Aplicación
A continuación, se presenta las calificaciones de 12 estudiantes a dos temas de
interés. Pruebe a un =0.05 si existe relación entre estos dos temas de interés
Tema1 3 4 2 1 8 11 10 6 7 12 5 9
Tema2 2 6 5 1 10 9 8 3 4 12 7 11

H0: xy= 0
H1: xy ≠ 0
=0.05
Pvalor = 0.0018

Dr. Jaime Carlos Porras Cerrón 281


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que existe relación entre los dos temas de interés.

➢ Secuencia en R
Existe la función cor.test
cor.test(x,y,método=kendall, alternativa)
Otras funciones son:
cor.fk del paquete pcaPP que brinda solo el coeficiente.
cor.fk(x,y)
Kendall del paquete Kendall que brinda el pvalor para una prueba bilateral.
Kendall(x,y)

➢ Resultados con R
Tema1<-c(3,4,2,1,8,11,10,6,7,12,5,9)
Tema2<-c(2,6,5,1,10,9,8,3,4,12,7,11)
cor.test(Tema1,Tema2,method="kendall")

Kendall's rank correlation tau


data: Tema1 and Tema2
T = 55, p-value = 0.001803
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.6666667

library(pcaPP)
cor.fk(Tema1,Tema2)
[1] 0.6666667

library(Kendall)
Kendall(Tema1,Tema2)

tau = 0.667, 2-sided pvalue =0.0031919

library(agricolae)
agricolae :: kendall(Tema1,Tema2)
$stat
[1] 3.017192
$tau
[1] 0.6666667
$pvalue
[1] 0.002551281

➢ Algunas consideraciones en R
▪ Permite analizar los casos unilaterales y bilaterales.
▪ Presenta el estadístico de prueba.

Dr. Jaime Carlos Porras Cerrón 282


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

1.3. Coeficiente de Correlación Parcial Txy.z de Kendall de rangos


➢ Aspectos Generales
Cuando se observa correlación entre dos variables, existe siempre la posibilidad
de que la correlación se deba a la asociación entre cada una de las dos variables
y una tercera variable.
Estadísticamente, este problema puede ser atacado por métodos de correlación
parcial. En la correlación parcial, se eliminan los efectos de variación en una
tercera variable sobre la relación entre las variables X e Y. En otras palabras se
encuentra la correlación entre X e Y manteniéndose constante la tercera variable
Z.

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en una escala ordinal.

➢ Inferencia Estadística
▪ Se deben calcular todas las posibles correlaciones de Kendall entre las tres
variables Txy, Txz y Tyz.
▪ Calcular el coeficiente de correlación parcial de Kendall mediante la siguiente
expresión
Txy − TxzTyz
Txy . z =
(1 − T )(1 − T )
2
xz
2
yz

Si la muestra es suficientemente grande (n>50), se puede hacer uso del siguiente


estadístico de prueba para evaluar la significancia del coeficiente de correlación
parcial de Kendall:
3Txy . z n ( n − 1)
z= ~ N ( 0,1)
2 ( 2n + 5 )

Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 :  xy . z = 0 H 0 :  xy . z = 0 H 0 :  xy . z = 0
H1 :  xy . z  0 H1 :  xy . z  0 H1 :  xy . z  0

➢ Aplicación
En un estudio de psicología se ha evaluado las puntuaciones de tres temas:
autoritarismo (X), estatus de lucha (Y) y la conformidad a la presión de grupo (z).
Los resultados de la evaluación a doce personas se presentan a continuación:

X 3 4 2 1 8 11 10 6 7 12 5 9
Y 2 6 5 1 10 9 8 3 4 12 7 11
Z 1.5 1.5 3.5 3.5 5 6 7 8 9 10.5 10.5 12

Dr. Jaime Carlos Porras Cerrón 283


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

Se desea verificar si existe relación entre el autoritarismo y estatus de lucha


debido a la conformidad a la presión de grupo.

H0: xy.z = 0
H1: xy.z ≠ 0
=0.05

Z = 2.776
Pvalor=0.0055<α se rechaza H0.

Conclusión
Existe suficiente evidencia estadística a un nivel de significación de 0.05 para
rechazar la H0.
Por lo tanto, podemos afirmar que existe relación si existe relación entre el
autoritarismo y estatus de lucha debido a la conformidad a la presión de grupo.

➢ Secuencia en R
Existe la función cor y a partir de ella se debe obtener la correlación parcial
cor(x,y,método=kendall, alternativa)
Tambien existe la función pcor.test del paquete ppcor
pcor.test(X,Y,Z,method="kendall")

➢ Resultados con R
X<-c(3,4,2,1,8,11,10,6,7,12,5,9)
Y<-c(2,6,5,1,10,9,8,3,4,12,7,11)
Z<-c(1.5,1.5,3.5,3.5,5,6,7,8,9,10.5,10.5,12)

XY<-cor(X,Y,method="kendall")
XZ<-cor(X,Z,method="kendall")
YZ<-cor(Y,Z,method="kendall")
Txyz<-(XY-XZ*YZ)/sqrt((1-XZ^2)*(1-YZ^2))
n<-length(X)
zcal<-(3*Txyz*sqrt(n*(n-1)))/sqrt(2*(2*n+5))
[1] 2.776892
2*(1-pnorm(zcal))
[1] 0.005488142

pcor.test(X,Y,Z,method="kendall")
estimate p.value statistic n gp Method
1 0.6135709 0.008610245 2.627154 12 1 kendall

1.4. Otros coeficientes basados en la concordancia de observaciones


➢ Aspectos Generales
El concepto de concordancia se utiliza para estimar índices como: Tau-b, Tau-c,
Gamma y D Somers para variables ordinales.

Análisis de concordancias

Dr. Jaime Carlos Porras Cerrón 284


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
Se traducen a rangos los valores de las variables originales X e Y.
Por ejemplo: Dadas las variables A, B y C y sus respectivos rangos RA, RB y
RC.
A B C RA RB RC
1 11 34 1 1 5
4 12 32 2 2 4
7 13 30 3 3 3
8 56 21 4 4 2
9 58 15 5 5 1

Si se calcula el coeficiente de Spearman obtendríamos el valor 1 para la pareja


de variables A y B, y -1 para las parejas A y C, y B y C. Se puede utilizar una
técnica de análisis más intuitiva:
Se pueden contar el número de concordancias, discordancias y empates entre
parejas de casos.
Si pasamos del caso 1 al caso 2 de A, vemos que el valor del rango aumenta, y
lo mismo ocurre al pasar del caso 1 de B al caso 2 de B, entonces decimos que
ha ocurrido una concordancias en la pareja A&B (simbolizada con C), en cambio,
al pasar del caso 1 al caso 2 de A, ocurre un aumento de sus rangos, y al pasar
del caso 1 al caso 2 de C acurre una disminución de sus rangos, decimos que
ha ocurrido una discordancia en la pareja A&C (simbolizada con D).
Si en todas las M parejas posibles de valores hay M concordancias, la relación
entre las variable es la máxima positiva. Si de todas las M parejas posibles de
valores hay M discordancias, la relación entre las dos variables es máxima
negativa. Si existen M/2 discordancias y M/2 concordancias, cabe esperar una
relación nula.
Un empate ocurre cuando al menos una de las dos variables presenta el mismo
valor en ambos casos. Hay tres tipos de empates: el empate en la variable A y
no en B, el empate en la variable B y no en A, y el empate en ambos. Se
simbolizan respectivamente, como EA, EB y ED.

➢ Supuestos
▪ La muestra es seleccionada al azar.
▪ Los datos deben encontrarse en al menos una escala ordinal.

a) ÍndiceTau de Kendall
C−D 2 (C − D )
 = =
n (n − 1) n (n − 1)
2

−1    1

Su interpretación es similar a la correlación de Pearson. Un inconveniente es que


no considera los empates, que sí están contados en el denominador.

b) Índice Gamma de Goodman y Kruskal (  )


C−D
 =
C+D

Dr. Jaime Carlos Porras Cerrón 285


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
Tampoco considera los empates, pero si D = 0, se obtiene el valor 1, máxima
relación positiva, si C = 0, se obtiene el valor -1, máxima relación negativa.
Si C = D, se obtiene un coeficiente de cero, no existe relación lineal entre las
variables.

Leo Aria Goodman William Henry Kruskal


(1928 – 2020) (1919 – 2005)

c) Índice D de Sommers
Este índice incluye los empates en su fórmula:

C−D C−D
D* = =
(C + D + E A ) + (C + D + E B ) E + EB
C+D+ A
2 2

Alcanza los valores máximos (1 o -1) cuando no hay empates.

d) Índices Tau-b y Tau-c de Kendall (  B y  C )


La tau-b, denominada comúnmente tau de Kendall y Stuart, utiliza el mismo
criterio de la D de Sommers, sólo que en lugar de usar en el denominador una
media aritmética, usa una media geométrica.

C−D
b =
(C + D + E A ) (C + D + E B )

La tau-c de Kendall, en lugar de manipular el número de empates, utiliza el valor


de V, que es el número más pequeño entre los diferentes valores que toma cada
variable.
2 V (C − D )
c = 2
n (V − 1)

Dr. Jaime Carlos Porras Cerrón 286


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

➢ Aplicación
Ejemplo: Se tiene las siguientes 4 variables con 6 casos cada una.
X1 X2 X3 X4
1 1 1 1
2 1 1 2
3 2 1 3
4 3 2 4
5 5 4 4
6 4 3 4

Asignando rangos tenemos:

RX1 RX2 RX3 RX4


1 1.5 2 1
2 1.5 2 2
3 3 2 3
4 4 4 5
5 6 6 5
6 5 5 5

El número total de parejas entre n datos es n(n-1)/2. Luego en este caso existen
(6)(5)/2 = 15 parejas.
Para cada par de variables analizaremos el número de concordancias,
discordancias y empates.

Variables C D EA EB ED
1-2 13 1 0 1 0
1-3 11 1 0 3 0
1-4 12 0 0 3 0
2-3 12 0 0 2 1
2-4 11 0 1 3 0
3-4 9 0 3 3 0

▪ Calcular el Índice Tau de Kendall para las variables X1 y X2:

2 (C − D ) 2(13 − 1)
= = = 0.8
n(n − 1) 6(5)

Lo cual indica una relación lineal fuerte y directa entre las variables X 1 y X2.

▪ Calcular la Gamma de Goodman y Kruskal para las variables X1 y X2:

C − D 13 − 1
 = = = 0.8571
C + D 13 + 1

▪ Calcular la D de Sommers para las variables X1 y X2:

Dr. Jaime Carlos Porras Cerrón 287


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica

C−D 13 − 1
D* = = = 0.8276
E + EB 0 +1
C+D+ A 13 + 1 +
2 2

▪ Calcular la Tau-b de Kendall para las variables X1 y X2:

C−D 13 − 1
b = = = 0.8281
(C + D + E A ) (C + D + E B ) (13 + 1 + 0)(13 + 1 + 1)

▪ Calcular la Tau-c de Kendall para las variables X1 y X2:


2 V (C − D ) 2 ( 5 )(13 − 1)
c = 2 = = 0.833
n (V − 1) 62 ( 5 − 1)

V=min(6,5)=5

➢ Secuencia en R
En el paquete vcdExtra se encuentra la función GKgamma con la cual se puede
obtener el índice de Gamma y Kruskal
GKgamma(tabla)
También existe el paquete ryouready que presenta varias funciones que permite
obtener varios índices como:
Índice de Goodman y Kruskal
ord.gamma(tabla)
La D de Sommers
ord.somers.d(tabla)
Las Tau-b y Tau-c de Kendall
ord.tau(tabla)

➢ Resultados con R
x1<-1:6
x2<-c(1.5,1.5,3,4,6,5)
library(vcdExtra)
tabla<-table(x1,x2)
GKgamma(tabla)

gamma : 0.857
std. error : 0.159
CI : 0.545 1

library(ryouready)
ord.gamma(tabla)
Goodman-Kruskal Gamma: 0.857
ord.somers.d(tabla)
Somers' d:
Columns dependent: 0.800

Dr. Jaime Carlos Porras Cerrón 288


UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Departamento Académico de Estadística e Informática
Estadística No Paramétrica
Rows dependent: 0.857
Symmetric: 0.828

ord.tau(tabla)
Kendall's (and Stuart's) Tau statistics
Tau-b: 0.828
Tau-c: 0.833>

Dr. Jaime Carlos Porras Cerrón 289

También podría gustarte