1
ASSIGNMENT N°3
TALLER DE EXPERIMENTOS MULTINOMIALES, TABLAS DE
CONTINGENCIA Y ESTADÍSTICA NO PARAMÉTRICA
CURSO:
INFERENTIAL STATISTICS
DOCENTE:
EDUARDO FRANCO CHALCO
INTEGRANTES:
CASTILLO NAVARRO, LUIS FERNANDO 100%
GOMEZ SOTO, OLENKA FIORELLA 100%
LOPEZ MACEDO, JOEL 100%
2023
2
1. INTRODUCCIÓN
Los experimentos multinomiales tienen una diferencia principal de los binomiales
y es que los binomiales tienen dos resultados a diferencia de los multinomiales que
tienen múltiples resultados.
Podemos emplear la siguiente fórmula para el cálculo de ejercicios multinomiales:
Como característica de las poblaciones multinomiales se estudia el caso en que
cada elemento de una población corresponde a una y sólo a una de varias clases o
categorías.
El propósito de una prueba de bondad de ajuste es que se averigua si existen
diferencias estadísticamente significativas entre la distribución esperada y la
observada, se plantean dos hipótesis: Hipótesis Nula e Hipótesis Alternativa. Las
tablas de contingencia muestran los valores de la muestra en relación con dos
variables diferentes que pueden ser dependientes o contingentes entre sí, estas nos
ayudan a ser capaces de realizar una prueba formal de una afirmación de que
diferentes poblaciones tienen las mismas proporciones de algunas características,
para que esto pueda desarrollarse de manera satisfactoria se tienen ciertos requisitos,
los datos son seleccionados aleatoriamente, consisten en conteos de frecuencias
para cada una de las categorías y la frecuencia esperada es de al menos 5.
En un contraste de independencia se toma una muestra transversal de la
población, es decir, se selecciona al azar una cierta cantidad de individuos de la
población, se observan las dos variables sobre cada uno de ellos, y se contrasta si las
probabilidades conjuntas son iguales al producto de las probabilidades marginales de
cada variable. En un contraste de homogeneidad se escoge una de las variables y
para cada uno de sus posibles valores se toma una muestra aleatoria, de tamaño
prefijado, de individuos con ese valor para esa variable; su unión forma una muestra
3
estratificada.
En ambos contrastes la hipótesis nula es que las variables son independientes.
La prueba de Wilcoxon-Mann-Whitney (WMW) con frecuencia se usa para
comparar medias o medianas de dos conjuntos independientes, posiblemente con
distribución no normal, esto no es correcto, y puede conducir a un análisis equívoco.
La prueba de WMW establece la diferencia de dispersión de datos de un grupo con
respecto a otro. Hacemos énfasis en el uso adecuado de esta prueba. La prueba de
Kruskal-Wallis es una extensión de la prueba U de Mann-Whitney. La prueba es el
análogo no paramétrico de análisis de varianza de un factor y detecta diferencias en
la ubicación de distribución. La prueba supone que no hay ningún orden a priori de las
poblaciones “k” de las cuales se extraen las muestras.
2. DESARROLLO
Un grupo de investigadores están interesados en conocer la diferencia en
peso que existe entre pacientes con y sin diabetes. Sin embargo, tienen duda
respecto del reporte del peso de los pacientes, dado que se ha informado
previamente que cuando los pacientes se les da la oportunidad de auto reportar su
peso tienden a subestimarlo redondeando el último dígito a 5 o 0. Por tanto, se
toman datos tanto de manera auto reportada como registrando el peso en un
laboratorio con una báscula.
a) Realice una prueba de bondad de ajuste para el último dígito de los
pesos reportados por los pacientes y otra prueba de bondad de ajuste
para el último dígito del peso registrado por los investigadores en el
laboratorio. Asumiendo que los últimos dígitos para ambos casos
deberían seguir una distribución uniforme, concluya respecto de los
resultados de las pruebas de bondad de ajuste.
4
Prueba de bondad de ajuste para el último dígito de los pesos reportados por
los pacientes:
Hipótesis nula (H0): Los últimos dígitos de los pesos reportados por los
pacientes siguen una distribución uniforme.
Hipótesis alternativa (H1): Los últimos dígitos de los pesos reportados por los
pacientes no siguen una distribución uniforme.
Para realizar esta prueba, puedes utilizar la Prueba de Chi-cuadrado para
verificar si la distribución de los últimos dígitos es uniforme.
Primero, abrimos el software de uso libre R, previo a ello debemos de tener la
base de datos dentro de la carpeta a utilizar. Cargamos la base de datos en R
utilizando el siguiente código:
> #Cargamos la base de datos
> setwd("C:/Users/PC-LIMA-02L/Documents/PA3")
>
> base_peso <- read.csv2("[Link]",header=T)
> head(base_peso)
X diagnostico peso_basc peso_auto ud_peso_basc ud_peso_auto
1 1 Sin diabetes 76 80 6 0
2 2 Sin diabetes 82 82 2 2
3 3 Sin diabetes 79 79 9 9
4 4 Con diabetes 117 117 7 7
5 5 Sin diabetes 91 90 1 0
6 6 Sin diabetes 69 69 9 9
Después, realizamos la prueba de Chi-cuadrado, que nos permite medir la
bondad de ajuste, con respecto a los pacientes que se pesan de forma manual:
> # Realizar la prueba de chi-cuadrado de peso manual
> prueba_basc <- [Link](table(base_peso$ud_peso_basc))
>
> # Imprimir los resultados
5
> print(prueba_basc)
Chi-squared test for given probabilities
data: table(base_peso$ud_peso_basc)
X-squared = 8.6, df = 9, p-value = 0.475
Conclusión: El valor p en esta prueba es de 0.475, lo que significa que no
hay evidencia suficiente para rechazar la hipótesis nula. Esto sugiere que los últimos
dígitos del peso reportados por los pacientes que se pesan de forma manual no
difieren significativamente de una distribución uniforme. En otras palabras, los datos
parecen seguir una distribución uniforme.
Ahora, realizamos la prueba de Chi-cuadrado, con respecto a pacientes que
dan su peso automático.
> # Realizar la prueba de chi-cuadrado de peso automático
> prueba_basc <- [Link](table(base_peso$ud_peso_auto))
>
> # Imprimir los resultados
> print(prueba_basc)
Chi-squared test for given probabilities
data: table(base_peso$ud_peso_auto)
X-squared = 315, df = 9, p-value < 2.2e-16
Conclusión: En este caso, el valor p es extremadamente pequeño (p-value <
2.2e-16), lo que indica que hay evidencia significativa para rechazar la hipótesis nula.
Esto sugiere que los últimos dígitos del peso registrado por los investigadores en el
laboratorio para los pacientes que dan su peso de forma automática no siguen una
distribución uniforme. Por lo tanto, los datos no se ajustan a una distribución
uniforme.
b) Utilizando el registro de peso más confiable, realice una comparación
de medias entre los pacientes con diabetes y los pacientes sin
6
diabetes. Asegúrese de revisar el cumplimiento de los supuestos de
normalidad y homogeneidad de varianzas.
Prueba de normalidad para los pacientes con y sin diabetes:
> # Crear grupos separados
> peso_diabetes <- base_peso$peso_basc[base_peso$diagnostico == "Con diabetes"]
> peso_sin_diabetes <- base_peso$peso_basc[base_peso$diagnostico == "Sin diabete
s"]
> # Verificar normalidad con el test de Shapiro-Wilk
> [Link](peso_diabetes)
Shapiro-Wilk normality test
data: peso_diabetes
W = 0.8788, p-value = 5.694e-05
Conclusión: Para los pacientes con diabetes, la prueba de normalidad (Shapiro
-Wilk) muestra un valor p muy pequeño (p-value = 5.694e-05), lo que sugiere que los d
atos no siguen una distribución normal.
> [Link](peso_sin_diabetes)
Shapiro-Wilk normality test
data: peso_sin_diabetes
W = 0.9622, p-value = 0.1395
Conclusión: Para los pacientes sin diabetes, la prueba de normalidad muestra
un valor p más grande (p-value = 0.1395), lo que indica que los datos parecen seguir u
na distribución normal.
> # Carga el paquete
> library(lawstat)
>
> # Realiza la prueba de homogeneidad de varianzas (Prueba de Levene)
> [Link](peso_diabetes, peso_sin_diabetes)
7
F test to compare two variances
data: peso_diabetes and peso_sin_diabetes
F = 1.1082, num df = 53, denom df = 45, p-value = 0.7277
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.623479 1.943755
sample estimates:
ratio of variances
1.108219
Conclusión: La prueba de homogeneidad de varianzas (Prueba de Levene) mu
estra que las varianzas de ambos grupos son estadísticamente iguales (p-value = 0.727
7), lo que cumple con el supuesto de homogeneidad de varianzas.
> # Prueba de comparación de medias (t-test) para pacientes con y sin diabetes
> [Link](peso_diabetes, peso_sin_diabetes, [Link] = TRUE)
Two Sample t-test
data: peso_diabetes and peso_sin_diabetes
t = 11.78, df = 98, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
22.88991 32.16484
sample estimates:
mean of x mean of y
106.59259 79.06522
Conclusión: La prueba de comparación de medias (t-test) muestra un valor p
extremadamente pequeño (p-value < 2.2e-16), lo que indica que hay evidencia
significativa para rechazar la hipótesis nula de que no hay diferencia en las medias de
peso entre los pacientes con y sin diabetes. Además, el valor t es significativamente
alto (t = 11.78), lo que sugiere que la diferencia en las medias es estadísticamente
significativa.
8
c) Concluya respecto de los resultados de la comparación de medias.
Diferencia Significativa en las Medias: La prueba t de Student arrojó un valor p
extremadamente pequeño (p-value < 2.2e-16), lo que indica que existe una diferencia
significativa en las medias de peso entre los dos grupos. El valor t también es
significativamente alto (t = 11.78).
Mayor Peso en Pacientes con Diabetes: Los resultados sugieren que el peso
promedio es significativamente mayor en el grupo de pacientes con diabetes en
comparación con el grupo de pacientes sin diabetes. La diferencia en las medias es
estadísticamente significativa.
Homogeneidad de Varianzas: La prueba de homogeneidad de varianzas
(Prueba de Levene) mostró que las varianzas de ambos grupos son estadísticamente
iguales, lo que cumple con el supuesto de homogeneidad de varianzas.
Normalidad de los Datos: Aunque la prueba de normalidad (Shapiro-Wilk) para
los pacientes con diabetes indicó que los datos no siguen estrictamente una
distribución normal.
En síntesis, los resultados indican que hay una diferencia significativa en las
medias de peso entre los pacientes con diabetes y los pacientes sin diabetes, y esta
diferencia es estadísticamente significativa. Los pacientes con diabetes tienden a
tener un peso promedio significativamente mayor en comparación con aquellos sin
diabetes. Esto podría ser relevante para la investigación o el tratamiento de pacientes
con diabetes, ya que el peso es un factor importante en la gestión de esta condición
médica.
SCRIPT EN R:
Cargamos la base de datos
setwd("C:/Users/PC-LIMA-02L/Documents/PA3")
base_peso <- read.csv2("[Link]",header=T)
9
head(base_peso)
# Realizar la prueba de chi-cuadrado de de peso manual
prueba_basc <- [Link](table(base_peso$ud_peso_basc))
# Imprimir los resultados
print(prueba_basc)
# Realizar la prueba de chi-cuadrado de peso automático
prueba_basc <- [Link](table(base_peso$ud_peso_auto))
# Imprimir los resultados
print(prueba_basc)
# Cargar la librería necesaria para realizar la prueba
library(stats)
# Crear grupos separados
peso_diabetes <- base_peso$peso_basc[base_peso$diagnostico == "Con diabetes"]
peso_sin_diabetes <- base_peso$peso_basc[base_peso$diagnostico == "Sin
diabetes"]
# Verificar normalidad con el test de Shapiro-Wilk
[Link](peso_diabetes)
[Link](peso_sin_diabetes)
# Instala el paquete "lawstat" si aún no lo has hecho
[Link]("lawstat")
10
# Carga el paquete
library(lawstat)
# Realiza la prueba de homogeneidad de varianzas (Prueba de Levene)
[Link](peso_diabetes, peso_sin_diabetes)
# Prueba de comparación de medias (t-test) para pacientes con y sin diabetes
[Link](peso_diabetes, peso_sin_diabetes, [Link] = TRUE)
3. REFERENCIAS BIBLIOGRÁFICAS:
Triola, M. (2018). Estadística (12va. Ed.), 338 - 345.
[Link]
Hernandez, F., y Usura, O. (2021). Manual de R.
[Link]
Beyer, W. (1987). Standard Mathematical Tables (28.ª Ed.), 532.
Papoulis, A. (1984). Probabilidad, variables aleatorias y procesos estocásticos,
(2ª Ed.)
Sánchez, R. (2015). Prueba de Wilcoxon-Mann-Whitney: mitos y realidades.
2(18-21). REVISTA MEXICANA DE ENDOCRINOLOGÍA, METABOLISMO &
NUTRICIÓN.
[Link]
cion/2015/vol2/no1/[Link]
IBM Corporation. (2021). Prueba de Kruskal-Wallis. SPSS Statistics.
[Link]