Estadística inferencial
Mecanismos que ponemos en marcha para poner a prueba hipótesis y hacer inferencias a
partir de los datos que tenemos.
DESCRIPCION DE LA MUESTRA:
Consiste en describir la muestra que participó del estudio, respondiendo a la pregunta: ¿a
quién/qué se evaluó?.
Este apartado varía en función de las variables de interés de la investigación: dependiendo de
las variables que me interesen, se van a describir diferentes elementos.
- Variables que suelen aparecer en este apartado: sexo, edad, residencia, NSE, nivel
educativo, entre otras.
- Si mi trabajo es sobre alguna variable especial, debo incluirla
No hay que confundir con resultados descriptivos, y si hay que describir todos los elementos
que corresponden a ese nivel de medición.
Ejemplo: La muestra consistió en un total de … sujetos, de los cuales un 65% (n = …)
fueron hombres, y el 35% (n = …) restante, mujeres. La media de edad fue de ….. (DE =
….; Moda = …; Mediana = …; Mínimo = …; Máximo = …). Un 25% (n = …) de la muestra
pertenece al NSE bajo, un 50% (n = …) al NSE medio y un 25% (n = …) al NSE alto (Moda
= …; Mediana = …).
>> Recordatorios:
Las letras “n” y “DE” van en cursiva.
Reportar todos los estadísticos correspondientes al nivel de medición de esa variable.
Luego de un % debería indicarse el n que corresponde a ese % para que el lector
conozca cuál es su frecuencia.
A veces se incluye quiénes quedaron fuera de la muestra. Por ejemplo, si un criterio de
exclusión en nuestro trabajo es el diagnóstico de algún trastorno mental, se podría
aclarar al final que un determinado porcentaje de sujetos se excluyeron de la
investigación por no cumplir con los criterios de inclusión.
El objetivo de este apartado es que al lector le quede bien claro quiénes participaron de la
muestra.
HIPOTESIS:
Luego de haber planteado nuestro problema de investigación con las preguntas que van a
guiar nuestro trabajo debemos establecer cuáles van a ser nuestras hipótesis Las hipótesis
son una explicación tentativa a nuestro problema de investigación y podría definirse como una
afirmación comprobable de una relación potencial entre dos o más variables. Es decir, son el
primer paso que debo hacer para luego realizar inferencias.
Debe tener ciertas características:
- Comprobable, es decir, no puedo plantear hipótesis que no se puedan comprobar
porque la estadística inferencial trabaja poniendo a prueba las hipótesis.
- Armoniosa con otras Hi del campo de investigación, es decir, a partir de lo que yo leí
de la literatura debo plantear hipótesis que tengan cierto sentido y similar a lo que se
sabe del tema.
- Sencilla, cuando mas acotada mejor.
- Aplicable al problema, no puedo plantear una hipótesis que no se relacione con mis
preguntas de investigación.
- Ser susceptible de cuantificar, ya que siempre se trabaja con datos numéricos.
>> Tipos de hipótesis:
Tenemos de 3 tipos desde el punto metodológico: correlacionales, de diferencia de grupos y
explicativas. Todas están conectadas al objetivo de investigación planteado.
1) Correlacionales: hacen referencia a relación entre variables, es decir, se plantea que
dos variables están relacionadas. Por ej.: existe relación entre el bienestar psicológico
y los niveles de actividad física, siendo que, a mayores niveles de actividad física,
mayores niveles de bienestar psicológico hay dos partes, una que me dice que
existe relación, y otra que me explica cómo es esa relación (la dirección). La dirección
de la relación puede ser:
A) Positiva: aumenta una, aumenta la otra // disminuye una, disminuye la otra.
B) Negativa: aumenta una, disminuye la otra.
2) De diferencia de grupo: comparan los niveles de una variable en dos grupos,
explorando diferencias entre un grupo y otro. Por ej.: existen diferencias en los niveles
de actividad física en función del género de las personas, siendo que los hombres
hacen más actividad física que las mujeres debo decir como es esta diferencia en la
relación.
3) Explicativas: hacen referencia a explicar los valores de una variable en función de la
otra. Suele ser cuando se habla de incidencias, efectos, provocar, etc. Son causales y
explicativas. Por ej.: una intervención cognitivo conductual disminuyen los síntomas de
TCA en mujeres estoy diciendo que A causa algo en B. La diferencia con las
correlacionales es que estas no hablan de causalidad.
>> Hipótesis nula y de investigación:
Desde el punto de vista estadístico tenemos 2 tipos posibles:
a) H1 (hipótesis de investigación): afirma que hay algún grado de relación o asociación
entre las variables.
b) H0 (hipótesis nula): representa la afirmación de que no existe la relación entre las
variables. No es lo contrario a H1, sino que solo dice que no existe relación.
H1: Existen diferencias en los niveles de bienestar según el sexo de los participantes, siendo
que los hombres reportan menor bienestar que las mujeres.
Ho: Las mujeres reportan menor bienestar que los hombres.
Ho: No existen diferencias en los niveles de bienestar en función del sexo de los sujetos.
>> Poner a prueba:
Con los estadísticos vamos a poner a prueba nuestras hipótesis (de diferencia de grupo, de
relación o de causalidad).
El proceso de aceptar o rechazar una hipótesis lleva implícito un riesgo que se representa con
la letra “p”, y el riesgo corresponde a aceptar la H1 cuando en realidad la cierta es H0.
Cuanto menos es el valor de “p”, mas seguros estamos de que podemos rechazar la
H0.
En psicología se estableció como limite de riesgo un 95% y representa el valor de p de 0,05
esto quiere decir que la probabilidad de que la H0 sea cierta es de un 5%.
Si la probabilidad de que nuestro resultado haya ocurrido al azar es igual o menor a
0,05 podemos rechazar la H0 y decir que nuestros resultados son estadísticamente
significativos.
Si la probabilidad es mayor a 0,05 no resulta estadísticamente significativa y no
podemos rechazar la H0.
PRUEBAS DE NORMALIDAD Y ESTADISTICOS:
Tenemos diferentes estadísticos que podemos usar para poner a prueba nuestras hipótesis. En
primera instancia tenemos dos grandes grupos:
1) Estadísticos paramétricos: siempre que se tenga distribución normal o una muestra
grande.
2) Estadísticos no paramétricos: variable con distribución no normal o una muestra no
grande.
La aplicación de uno u otro va a depender de:
a) Distribución de la variable (normal vs. No normal).
b) Muestra grande (TCL), asumiendo que es normal la distribución.
Básicamente hay que fijarse si hay una distribución normal o no, y si no nos hacemos
esa pregunta nos fijamos el tamaño de la muestra.
Luego tenemos que ver que estadístico especifico usaremos dentro de cada grupo y eso
depende del nivel de medición de mis variables.
>> Grupos de estadísticos:
PRUEBA T DE STUDENT:
Requieren de al menos una variable que sea de nivel de medición de escala (por ej.: nivel de
actividad física) y otra variable que sea de nivel de medición nominal/ordinal, ya que esta
última me divide los grupos (por ej.: variable sexo que me agrupa a los sujetos en hombres y
mujeres).
Es decir, voy a comparar los valores de una o mas variables en DOS grupos (muestras). Lo que
se compara son las puntuaciones medias de la variable a comparar en cada grupo.
ANOVA:
Es una prueba estadística que sirve para analizar si dos o mas grupos difieren
significativamente entre si en cuanto a sus medias y varianzas. Es decir, la voy a usar cuando
quiero comparar las medias y/o varianzas de mas de dos grupos, y de esta forma pongo a
prueba una hipótesis de diferencia entre grupos.
- H1: los grupos difieren significativamente entre sí.
- H0: los grupos no difieren significativamente entre sí.
Las variables deben ser:
- Independientes: factor, origina la segmentación. Su nivel de medición puede ser
cualquiera mientras este agrupada en categorías.
- Dependiente: nivel de medición de escala (intervalar o de razón).
R DE PEARSON:
Necesito dos variables de nivel de medición de escala, porque lo que quiero ver es si el valor
de una se condice con el valor de la otra, por eso necesito dos variables con valor numérico,
porque necesito hablar de como covaria una en función de la otra.
>> Distribución normal:
Si la muestra es grande (TCL) no es necesario probar la normalidad.
Las hipótesis de distribución de la variable se plantean en los siguientes términos:
- H1: nos va a decir que la variable no tiene una distribución normal
- H0: nos va a indicar que la variable tiene distribución normal.
Si mi valor de p es menor a 0,05 puedo rechazar la H0 asegurándome con un 95% de
seguridad que mi H1 es verdadera, pudiendo afirmar que la variable no tiene
distribución normal.
Si mi valor de p es mayor a 0,05 no tengo consenso suficiente para rechazar la H0 y
tengo que guiarme por ella, la cual dice que mi variable tiene distribución normal.
Si sucede que no tenemos distribución normal y no podemos aplicar TCL, en el SPSS vamos a
realizar dos pruebas, dependiendo de la cantidad de casos (no paramétricas):
Kolgomorov-Smirnov (KS): más de 50 casos.
Shapiro-Wilk (SW): hasta 50 casos.
Estos estadísticos nos arrojan el valor de p, y en función de eso vamos a saber si tenemos
distribución normal o no.
Son pruebas que comparan las puntuaciones de la muestra con un conjunto de puntajes
normalmente distribuidos con la misma media y DE.
PRUEBA DE NORMALIDAD EN SPSS:
Para poder analizar la distribución de una variable en el SPSS tienen que hacer los siguientes
pasos:
1. Analizar
2. Estadísticos descriptivos
3. Explorar
4. Ingresar en "Lista de dependientes" la variable que quieren analizar
5. Clickear en "Gráficos"
6. Tildar la opción que dice "Gráficos con pruebas de normalidad"
7. Continuar y aceptar
En la ventana de Resultados tendrán una primera tabla que les indica el N de los casos válidos,
perdidos y totales. Luego una tabla que describe estadísticos correspondientes a la variable
explorada. Y, tercero, una tabla con los dos estadísticos que prueban la normalidad. El K-S se
utiliza cuando tenemos más de 50 casos, y el S-W cuando tenemos hasta 50 casos. Posterior a
esto, van a ver gráficos que visualizan la distribución de la variable.
Para poder reportar al lector estos resultados se utiliza el siguiente formato, por ejemplo:
Se constató que la variable inteligencia emocional no tiene una distribución normal, D(66)
= ,128; p = ,009.
- En este ejemplo, la variable no tuvo una distribución normal porque el valor de p fue
menor a 0,05, fue de 0,009, entonces rechazamos la Ho y nos quedamos con la Hi, es
decir, que la variable no tiene distribución normal.
Noten que la D está en cursiva. Entre los paréntesis se ingresa el número que aparece en la
columna de gl de la prueba que utilicé en función de la cantidad de casos que tengo. Luego del
igual se coloca el valor de la columna "Estadístico". Luego un punto y coma. Y finalmente la p
en cursiva con su valor, que es el que se encuentra en la columna de "Sig.". Entonces sería:
- D(gl) = estadístico; p = sig.
Gl: grados de libertad
Sig: p-valor
- D(308) = ,161; p = ,000
- En este caso NO hay distribución normal ya que p-valor (Sig.) es menor a 0,05.
- Entonces seria:
Se constato que la variable edad en años no tiene una distribución normal, D(308)
= ,161; p = ,000
__
PRUEBA T DE STUDENT EN SPSS:
La utilizamos cuando usamos estadísticos paramétricos (distribución normal o TCL). Siempre se
usa para poner a prueba hipótesis de diferencia de grupos, entre dos grupos.
Recordar requisitos:
- Una variable de nivel de medición de escala (intervalar o de razón).
- Una variable de nivel de medición nominal u ordinal.
Ejemplo SPSS:
- Genero (opción 1 mujer // opción 2 hombre) variable nominal.
- METS variable escala.
- Bienestar total variable escala.
H1: existen diferencia en los niveles de consumo energético realizado por la caminata
(METS) en función del genero de las personas.
H0: no existen diferencias en los niveles de consumo energético realizado por la
caminata en función del género de las personas.
o H1: existen diferencias en el bienestar total en función del género de las personas.
o H0: no existen diferencias en el bienestar total en función del genero de las personas.
Pasos en el SPSS:
1) Analizar
2) Comparar medias
3) Prueba T para muestras independientes
o Variables para contrastar
o Variables de agrupación (genero) (es la que separa la base)
4) Cuando ya pusiste variables de agrupación, hay que definir los grupos, poniendo
los valores de la variable (1 mujer // 2 hombre), entonces ponemos
5) Ahora completamos variables para contastar: METS y bienestar total
6) Aceptar
Se abre la pestaña de resultados:
La prueba de Levene me va a decir que renglón tengo que leer:
- Menor a 0,05 hay que leer el renglón de abajo.
- Mayor a 0,05 hay que leer el renglón de arriba.
H1: existen diferencia en los niveles de consumo energético realizado por la caminata
(METS) en función del genero de las personas.
H0: no existen diferencias en los niveles de consumo energético realizado por la
caminata en función del género de las personas.
El valor de p es 0,035 es decir, es mas chico que 0,05 por lo que puedo rechazar mi H0 y puedo
aceptar con cierto grado de confiabilidad mi H1 como mi p valor es 0,035 mi grado de
confiabilidad es del 97%. Afirmo que existen diferencia en los niveles de consumo energético
realizado por la caminata (METS) en función del género de las personas.
Hasta acá ya puse a prueba mi hipótesis, ahora me faltaría saber quien hace mas y quien hace
menos, eso lo vemos en las medias, afirmando que los hombres consumen mas.
__
El segundo caso:
o H1: existen diferencias en el bienestar total en función del género de las personas.
o H0: no existen diferencias en el bienestar total en función del género de las personas.
Miro mi prueba de Levene y veo que mi p-valor es de 0,676 es decir es mayor que 0,05 por lo
tanto leo el renglón de arriba, en donde:
- P valor: 0,819. Como este p valor es mayor a 0,05 no puedo rechazar mi H0, por lo que
debo afirmar que no hay diferencias en el nivel de bienestar total en función del
genero de las personas.
Sin embargo, en las medias vemos que si hay diferencias entre hombres y mujeres, pero no
puedo afirmar que esas diferencias se deban a diferenciar reales (sino que son azarosas).
Lo único que queda ahora es REPORTAR EL T DE STUDENT y para eso usamos la siguiente
formula:
- T (gl) = valor t; valor p = valor de significación, medias de cada grupo (de)
Ejemplo 1: se encontraron diferencias estadísticamente significativas en los niveles de
caminata en función del sexo de los participantes, siendo que los hombres hacen mas que las
mujeres ( t (166,68) =-2,12; p = 0,35; Media para hombres 1749,64 (DE = 2938,5); Media para
mujeres 1132,64 (DE =1568,137).
Ejemplo 2: no se encontraron diferencias estadísticamente significativas en los niveles de
bienestar total en función del sexo de los sujetos ( t (306) = -,228; p = 819)
___
ANOVA EN SPSS:
Debo hacer:
1) Analizar
2) Comparar medias
3) Anova de un factor
4) Se abre un cuadro y:
a) Lista de dependiente (pongo variables dependientes).
b) Factor (pongo variables independientes)
5) Apreto opciones y selecciono: descriptivos, prueba de homogeneidad de las varianzas,
excluir casos según análisis
6)
7) Para saber entre que grupos se dan las diferencias debo ir a POST HOC
8)
Ahora solo nos queda reportar, y para eso:
F (gl) = valor de F, p = valor de p. y Medias de la VD
Se hallan diferencias estadísticamente significativas en los niveles de confianza según el nivel
de residencia. Quienes residen en GBA Oeste (M = 2,38) confían más en la policía que aquellos
que residen en CABA (M = 2,01). (GBA Norte= 2,20; GBA Sur= 2,19. F(3,507) = 7,332; p < .001)
(prueba post hoc utilizada: T3 Dunnet).
Estadística descriptiva
Frecuencias y porcentajes
Medidas de tendencia central:
- Media
- Moda
- Mediana
Medidas de variabilidad:
- Desviación estándar.
- Rango.
- Varianza.
Medidas de posición:
- Cuartiles
- Deciles
- Centiles
Medidas de forma:
- Asimetría
- Curtosis
CUANDO LA USAMOS:
En una investigación la usamos:
1) Al describir la muestra
2) Al realizar objetivos descriptivos