Ejercicio practico Procedimientos
Parametricos y no parametricos
Nombre del estudiante: Kelly Vaque Sánchez
Ejercicio 1
Una compañía farmacéutica prueba 3 medicamentos distintos para aliviar el dolor de cabeza
causado por la migraña. Para el experimento 27 voluntarios fueron seleccionados y 9 fueron
asignados aleatoriamente a uno de las tres medicinas. Se les pidió a los sujetos que tomen la
medicina durante un episodio de migraña y que reportaran el dolor de cabeza en la escala del
1 al 10 (donde 10 equivale a un mayor dolor).
Table 1 Tabla de valoraciones de Medicina A, B y C
Medicina A Medicina B Medicina C
4 6 6
5 8 7
4 4 6
3 5 6
2 4 7
4 6 5
3 5 6
4 8 5
4 6 5
Desarrollo
1) Genere las hipotesis nula y alternativa que va a probar. Utilice la simbologia
correspondiente
Ho: µ1=µ2=…=µk=µ k=3
H1: Ǝ µj≠µ, j=1,2,…, k
Recuerde que Anova hace calculos sobre las medias y busca conseguir diferencias entre las
medias de (en este caso) las medicinas que estamos probando
El uso de anova en R requiere que los datos esten representadas como si fueran dos variables.
Una de las variables corresponde al valor evaluado del dolor de cabeza por el sujeto de estudio
y la otra variable corresponde a la medicina que probo.
El vector dolor_cabeza es la valoracion del dolor de cabeza, estan en orden , lo 9 primeros
corresponden a A y los 9 segundos a B y asi sucesivamente.
dolor_cabeza = c(4, 5, 4, 3, 2, 4, 3, 4, 4, 6, 8, 4, 5, 4, 6, 5, 8, 6, 6, 7, 6, 6, 7, 5, 6, 5, 5)
Una forma de apilar estos valores es creando un vector que en este caso particular tenga los 9
primeros elementos categorizados como A, los 9 segundos elementos categorizados como B y
los 9 terceros elementos categorizados como C.
Tome en cuenta que se habian evaluado a 27 voluntarios y que 9 habian evaluado a la
medicina A, 9 a la medicina B y 9 a la medicina C , tal y como se ve en la tabla 1
Cree un vector llamado medicamento y usando la siguiente instrucción, haga que el vector
presente 9 medicinas A, seguidas de 9 medicinas B y seguidas de 9 medicinas C.
Medicamento = c(rep("A",9), rep("B",9), rep("C",9))
1) Ahora cree una nueva variable que se llame Medicamento_evaluado y que este nuevo
vector sustituya los nombres de "A" por "Medicamento A", "B" por "Medicamento B"
y "C" por "Medicamento C". Ejecute la variable “Medicamento_evaluado”. Capture la
consola con este resultado
Cree un dataframe migrana con estos dos vectores; el vector de dolor_cabeza y el vector
Medicamento_evaluado, usando la siguiente instruccion
migraña = data.frame(dolor_cabeza, Medicamento_evaluado)
1) Genere un plot. Recuerde la posicion de la variable dependiente y de la variable
independiente. En este caso La variabla Medicameno_evaluado es la independiente y la
valoracion del dolor_cabeza es la dependiente. Capture de la consola la instrucción
ejecutada y el grafico del plot.
Utilice la siguiente instruccion para el plot
plot(VD ~ VI, data=data_frame)
Anova
Anova es un estadistico parametrico que se utiliza cuando tenemos 2 o más grupos a los que
queremos verles diferencias en medias.
Este es el comando para calcular el anova
aov(VD ~ VI, data=data_frame)
Note que aqui necesitan nuevamente ubicar la variable dependiente e independiente y
ademas guardar este resultado en una variable.
usen la siguiente instruccion
resultado_anova = aov(VD ~ VI, data=data_frame)
y luego para ver lo que contiene la variable resultado_anova usen lo siguiente
summary (resultado_anova)
2) Capture la consola con el resultado del summary
3) Concluya
A la hora de concluir requiere tener varias cosas
a) plot de lo que esta comparando
b) el f statistic
F=11.91
c) el p-value
valor p=0.000256
Se muestra un estadístico F de 11.91 con un valor p igual a 0.000256,
menor que 0.05. Por lo tanto se rechaza la hipotesis nula a favor de la
hipotesis alterna, es decir al menos una de las medicinas tiene una media
diferente.
Una forma de concluir es "Se muestra un F-statistic de xxxx con un p-value igual a xxxxx. Se
rechaza claramente la hipótesis nula de que los grupos que tomaron la medicina A, B y C
tienen igual media, por lo tanto se acepta la hipotesis alternativa de ...............
Estadisticos post hoc
Se los usa para identificar cual es el grupo donde se encuentra la diferencia
Aplicaremos dos post test bonferroni y tukey HSD
Recuerde que dentro de estos estadisticos observaremos el p-value, que definira donde se
encuentra la diferencia.
Post hoc test bonferroni
Ejecute la siguiente instrucción en la consola
pairwise.t.test(VD, VI, p.adjust="bonferroni")
1) Capture la pantalla
1) Conteste las siguientes preguntas
a) Existe diferencia entre la medicina B y C? SI /NO
No
b) Cuanto vale el p-value de estas dos medicinas?
1.00
c) Concluya con respecto a estas dos medicinas
Con un valor p>0.05 podemos decir que no tenemos suficiente evidencia estadística
para afirmar que existe diferencia entre la medicina B y C
d) Existe diferencia entre la medicina A y C
Si
e) Cuanto vale el p-value de estas dos medicinas?
Valor p=0.00068
f) Concluya con respecto a estas dos medicinas
Con un valor p<0.05 se concluye que existe suficiente evidencia estadística para afirmar
que hay una diferencia entre la medicina A y C
g) Existe diferencia entre la medician A y B
Si
h) Cuanto vale el p-value de estas dos medicinas?
Valor p=0.00119
i) Concluya con respecto a estas dos medicinas
Con un valor p<0.05 se concluye que existe suficiente evidencia estadística para afirmar
que hay una diferencia entre la medicina A y B
j) Cual de las medicinas se encuentra en el grupo que no tuvieron diferencias de medias
CyB
k) Que medicina esta presente siempre en las combinaciones que si presenta diferencias
La medicina A.
2) Concluya, cual es la medicina que presenta diferencias. No olvide que debe describir
la conclusion utilizando su p-value
Se puede entonces concluir que la media de la variable A es significativamente
diferente a las demas y presenta un p-value de 0.00019.
Se sugiere utilizar la siguiente forma de concluir: Se puede entonces concluir que la media de
la variable xxxxx es significativamente diferente a las demas y presenta un p-value de xxxxx.
Post hoc Test Tukey
Utilice la siguiente instruccion
TukeyHSD(variable, conf.level = 0.95)
1) Conteste las siguientes preguntas:
a) Cual de las medicinas se encuentra en el grupo que no tuvieron diferencias de medias?
(recuerde que el p-value es el que le informa a usted si hay o no diferencias, mientras
sea menor que 0.05 hay diferencias , si es mayor no hay diferencias)
El medicamento C
b) Que medicina esta presente en las combinaciones que si presenta diferencias
La medicina A
2) Concluya, cual es la medicina que presenta diferencias. No olvide que debe describir
la conclusion utilizando su p-value
Se puede ver que las diferencias entre medicina B y medicina A , medicina C y medicina A
son significativas (p=0.0011107 y p=0.0006453 respectivamente), mientras que la diferencia
C-B no es significativa (p=0.9745173). Podemos concluir que la medicina diferente es: la
medicina A
Se sugiere utilizar la siguiente forma de concluir: Se puede ver que las diferencias entre
medicina x y medicina y, medicina x y medicina z son significativas (p=xxxx y p=xxxxxx
respectivamente), mientras que la diferencia C-B no es significativa (p=xxxx). Podemos concluir
que la medicina diferente es:
Ejercicio 2
Se capacitó a un grupo de adolescentes y adultos en varios tipos de aprendizaje estrategico,
superficial y complejo. Se les aplico un examen a estas personas y se obtuvieron sus
calificaciones. El investigador necesita saber si existe alguna diferencia entre las medias de los
examenes aplicados y ademas donde se encuentra la diferencia .
edad sexo Estrategica Superficial Compleja
Joven 15 M 65 88 56
Joven 17 M 42 85 66
Joven 19 M 63 89 95
Adulto 22 M 70 68 78
Adulto 25 M 88 79 48
Adulto 21 M 96 92 36
Joven 13 H 55 96 45
Joven 20 H 43 87 85
Joven 19 H 85 96 32
Adulto 23 H 49 66 47
Adulto 23 H 66 89 85
Adulto 26 H 77 56 99
Desarrollo
1) Que herramienta parametrica va a usar? Describa las hipotesis estadisticas (use la
simbologia correspondiente)
Anova de una via
Ho: µ1=µ2=…=µk=µ k=3
H1: Ǝ µj≠µ, j=1,2,…, k
2) Organice la informacion de tal manera que apile la informacion de las 3
capacitaciones y que estas se vean de la siguiente manera
Evaluacion Capacitacion
65 Estrategica
42 Estrategica
88 Superficial
56 Compleja
Para apilar las evaluaciones y los aprendizajes es necesario que:
Cree dos vectores: evaluacion y capacitacion
Cree un dataframe con esos dos vectores
Utilice el comando
stack(dataframe)
Asigne este resultado a una variable
Variable=stack(dataframe)
3) Ejecute la variable. Capture la consola
1) Genere el plot de los notas vs los aprendizajes. Capture la pantalla
2) Calcule el anova y concluya. Capture el resultado del anova
Con un estadístico F de Fisher con un valor de 3.488 y un valor p asociado a ese
estadístico con un valor de 0.04, se puede concluir que existe suficiente evidencia
estadística para rechazar la hipotesis nula, es decir que al menos una de las
capacitaciones tiene un promedio de notas diferente.
3) Calcule los 2 test post hoc explicados en el ejercicio anterior, y concluya. Capture
las ejecuciones de los 2 test .
Post hoc test bonferroni
Con un valor p>0.05 para todos los pares de capacitaciones, se concluye que no existe suficiente
evidencia estadística para afirmar que hay una diferencia entre las capacitaciones.
Post hoc Test Tukey
Se puede ver que las diferencias entre ninguna de los tipos de capacitaciones no son
significativas(p>0.05). Podemos concluir que no existe diferencia entre ninguna de las
capacitaciones.
Ejercicio 3:
Procedimientos No parametricos: Wilcoxon.test
Un procedimiento no paramétrico es un procedimiento estadístico que tiene ciertas
caracteristicas deseables que se ajustan a ciertas asunciones propias de la poblacion.
Si el tamano de la muestra es pequena y usted no puede asumir que la data en cada muestra
proviene de una distribucion normal usted puede optar por cualquiera de las dos cosas
a) Usar un procedimiento no parametrico como Wilcoxon rank sum test que no depende
de la normalidad de dos poblaciones
b) Usar el pooled-variance t test siguiendo una transformacion de normalizacion en la
data
En este caso usaremos el Wilcoxon test (a)
Wilcoxon test se aplica cuando tenemos maximo 2 grupos, y ademas debemos indicar que es
el mismo grupo es decir es pareado.
Caso
En el siguiente experimento se mide la depresión entre individuos dentro de un mismo grupo
en la semana 1 (x). Se les administra una drogra contra la depresion y se les vuelve a medir la
depresion en la semana 3 (y) . Estos son los valores que se obtuvieron de las mediciones.
x <- c(1.83, 0.50, 1.62, 2.48, 1.68, 1.88, 1.55, 3.06, 1.30)
y <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29)
1) Genere la hipotesis nula y alternativa. Recuerde que ahora medira medianas ya no
medias como lo hizo en los procedimientos parametricos.
Ho: La mediana de las diferencias de cada par de datos es cero
H1: la mediana de las diferencias entre cada par de datos es diferente de cero
Utilice el comando de ayuda (?) con el wilcox.test
? Wilcox.test
Observe los argumentos
2) Calcule el valor del Wilcoxon test para estos dos vectores considere la hipotesis
alternativa, considere el pareado y ademas considere que el nivel de confianza es de
0.85.
3) Cuanto es el p-value? Es menor que 0.05?
Valor p= 0.03906, menor que 0.05
4) Concluya en base a la mediana. Note que debe identificar cual es la mediana a la que
se refire
Con una mediana=40 para la diferencia de las medias dado que es diferente de cero
podemos afirmar que se rechaza la hipotesis nula que indica que la mediana es igual a
cero. Por lo que existe una diferencia antes y después del tratamiento.
Procedimientos No parametricos: Kruskal Wallis
Si la asuncion de que normalidad no es lograda usted puede utilizar Kruskal Wallis test
Para obtener la diferencia de medianas entre mas de 2 grupos.
Caso
Tenemos tres grupos de personas. El primer grupos son 5 sujetos normales , el segundo grupo
son 4 sujetos con problemas respiratorios, y el tercer grupo son sujetos con asbestosis. Se les
hizo una prueba de respiracion, y los indices obtenidos fueron los siguientes. Queremos
identificar si estos grupos tienen alguna diferencia con respecto a sus medianas.
x <- c(2.9, 3.0, 2.5, 2.6, 3.2) # sujetos normales
y <- c(3.8, 2.7, 4.0, 2.4) # con problemas respiratorios
z <- c(2.8, 3.4, 3.7, 2.2, 2.0) # con asbestosis
1) Cuales son las hipotesis nula y alternativa
Ho: todas las muestras provienen de la misma población (distribución).
H1: Al menos una muestra proviene de una población con una distribución distinta
2) Aplique la instruccion y capture pantalla
kruskal.test(list(x,y,z))
3) Concluya.
Con un valor p>0.05 se rechaza la hipotesis nula a favor de la hipotesis alterna, es decir
que al menos una de la muestra proviene de una población con una distribución distinta
4) Es posible identificar cual es el grupo diferente?
Si, con ayuda de una prueba de kruskall wallis a posteriori.
5) A que procedimiento parametrico se asemeja Kruskal Wallis?
ANOVA