TEMA 5.
METODOLOGÍA Y DISEÑO DE LOS TRABAJOS DE INVESTIGACIÓN
Tipo de variables
numérica
- continua
- ordinal: varios niveles con orden (escala likert)
categórica
- binaria (2 niveles), como por ejemplo si / no
- no binaria: varios niveles sin orden como blanco, azul, amarillo…
Numérica continua
testar normalidad que es lo primero que hay que hacer (la hipótesis nula siempre es que no hay diferencias y la
alternativa es que sí)
- test kolmogorov smirnov (los nombres no hace falta saberlos nos lo pone en el artículo)
- test saphiro-wilks
muestras grandes generalmente son normales
¿cuánto es una muestra grande?... (n=30, n=26…) suelen ser normalmente normales pero uno de los requisitos
mínimos para poder hablar de normalidad es que tengo entre 30 o 26 pacientes, es como el mínimo
lo primero que hay que hacer es TESTAR NORMALIDAD
p < 0,05 = hay diferencias significativas = rechazo hipótesis nula
con el test de normalidad lo que queremos es que sea p > 0,05 para que nos indique que no hay diferencias y por
tanto no rechazamos la hipótesis nula y podemos decir que nuestra variable es normal.
en el único momento que queremos un p > 0,05 es cuando testamos la normalidad porque lo que estamos es la
distribución de nuestra variable con otra que sirve una distribución normal.
Doy la media y la desviación estándar o típica que son los estadísticos descriptivos cuando hay normalidad. Si no
sigue una distribución normal hablo de la mediana y el rango intercuartílico (estadísticos de dispersión doy q1 y q2)
¿Qué quiere decir que mi muestra es normal?
depende de los tests… ejemplo: saphiro-wilks
h0: la distribución es normal
h1: la distribución no es normal
EJEMPLO:
Grupo.A = c(15, 12, 11, 18, 15, 15, 9, 19, 14, 13, 11, 12, 18, 15, 16, 14,
16, 17, 15, 17, 13, 14, 13, 15, 17, 19, 17, 18, 16, 14)
shapiro.test(Grupo.A)
## ## Shapiro-Wilk normality test ## ## data: Grupo.A ## W = 0.97032,
p-value = 0.548
NO RECHAZO LA HIPÓTESIS NULA por lo que no existen diferencias y sigue una distribución normal
La misma variable depende como la recoja puede ser normal o no.
En la de la derecha la variable vertical es el numero de pacientes y la línea horizontal el tiempo, por lo que voy viendo
cuantos implantes pierdo a lo largo del tiempo mientras que si lo represento como en la izquierda no parto de los
pacientes, sino que miro los implantes que se caen y lo distribuyo en el tiempo: en los primeros años han caido
poquitos 2-3% y a medida que pase el tiempo voy perdiendo mas; finalmente unos pocos son los que aguantan el
implante 20 años. Por lo tanto en el medio esta la media de la supervivencia del implante.
MUESTRA NORMAL = CAMPANA DE GAUSS
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas.
Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos
fenómenos tienden a parecerse en su comportamiento a esta distribución.
Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, p.ejm. tallas, pesos,
envergaduras, diámetros, perímetros,...
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de
abono.
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos,
puntuaciones de examen.
Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
Errores cometidos al medir ciertas magnitudes.
Valores estadísticos muestrales, por ejemplo : la media.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ...
Y en general cualquier característica que se obtenga como suma de muchos factores.
VARIABLES COMPUESTAS (COMPOSITE ANALYSIS)
En esta grafica tienen diferentes alturas porque los hombres tienen
más dispersión, están mas distribuidos en las alturas pero ambos
siguen una distribución normal.
Azul y rojo no siguen una distribución normal, tienen kuntosis a la izquierda o la derecha porque el error es
sistemático y no en diferente sitio
Puede tomar cualquier valor (- X, + X)
Son más probables los valores cercanos a uno central que llamamos media (m)
Conforme nos separamos de ese valor m , la probabilidad va decreciendo de igual forma a derecha e izquierda
(es simétrica).
Conforme nos separamos de ese valor m , la probabilidad va decreciendo de forma más o menos rápida
dependiendo de un parámetro s , que es la desviación típica.
T student
es una distribución normal, se llama test paramétrico para contraste de hipótesis
un poco más achatada y con las colas más anchas
descubierta en 1908 por william sealy gosset
cervezero de la casa guinness, la empresa de cerveza más grande de la época
empresa centrada en la innovación a través de la ciencia
tenía problemas de vista y no entró en el ejército
estudió matemáticas y ciencias naturales
Para las variables normales solo yo quiero saber si es significativo o no utilizamos este test. Solo se utiliza cuando
hablamos de media
T student - gosset
Guinness quería aumentar su producción asegurando mismo sabor y mínimos costes
¿cuánta muestras teníamos que tomar para asegurar la misma cantidad de sacharomycces cerivisiae? 100, 500,
1000?
Empezó a testar diferentes cantidades…
Y llegó a la conclusión que con 82 muestras casi siempre acertaba
Gosset no se quedó satisfecho y dijo a su empresa que quería consultar con un experto
Guinness mandó a gosset al laboratorio de pearson
Tras un año de trabajo concluyó el trabajo “el error probable de la media”
Cuando volvió a guinness estaba deseando publicar su trabajo pero…
Guinness no quería que supieran que en su empresa utilizaban este grado de desarrollo y de investigación ya que
les aportaba una ventaja competitiva
Al final llegaron a un acuerdo, se podía publicar el trabajo pero con un pseudónimo…student
La t, hace referencia al estadístico t (como el valor z hace referencia a la distribución normal)
Su trabajo pasó sin pena ni gloria…el inicio del concepto de la significancia estadística
Hasta que llegó fisher, avezado estudiante que se convertiría en padre de la estadística moderna (frecuentista) y
en un académico influyente
Fisher llegó a cambridge un año después de que gosset publicara su trabajo
MÉTODOS ESTADÍSTICOS PARA INVESTIGADORES (FISHER)
El valor para el cual P = .05, o 1 en 20... es conveniente tomar este punto como límite para juzgar si una desviación
debe considerarse significativa o no. Por lo tanto, las desviaciones que exceden el doble de la desviación estándar se
consideran formalmente significativas.
(mirar power)
Numérica continua. RESUMEN
Si mi muestra es normal:
Estadísticos descriptivos
- Centralidad: media
- Dispersión: desviación estándar, varianza
Contraste de hipótesis
- Tests paramétricos (TEST T-STUDENT)
Parametric test es que nos hablan de una distribución normal. Los no paramétricos es para distribuciones no
normales
No me tengo que saber los nombres, solo saber que tipo de variable tengo y cuantos grupos para ver que test tengo
que aplicar.
Test t de student
Se aplica a variables numéricas (a las medias)
Se asume que la variable sigue una distribución normal
Se asume que el muestreo ha sido al azar
Pasos
- Se determina el valor de significancia (0.05, 0.01…)
- Se escribe el comando del test de contraste de hipótesis
- Si p<0.05…entonces…