PSICOESTADÍSTICA
2023
PSICOESTADÍSTICA
MÓDULO 2
ORGANIZACIÓN DE DATOS:
¿Qué temas Expresión resumida de la
desarrollaremos hoy? información:
I. Medidas de Posición
II. Medidas de Dispersión
III. Medidas de Distribución
PSICOESTADÍSTICA
GUÍA
CONCEPTUAL
12/04 Organización de datos: análisis
de frecuencia y representaciones
gráficas. Expresión resumida de la
información. Medidas de posición,
dispersión y distribución.
19/04 Relaciones entre variables:
coeficientes de asociación y correlación
Aplicaciones con software estadístico
26/04. Repaso
Módulo 2
Expresión resumida de la
información:
Medidas de Dispersión
PSICOESTADÍSTICA
Medidas de Las medidas de dispersión
constituyen un grupo de medidas
Dispersión que informan acerca del grado de
dispersión o variabilidad
existente en un conjunto de datos.
Homogeneidad - Heterogeneidad
Medidas de Dispersión
Indica la dispersión de
Varianza los valores alrededor
de la media
Raíz cuadrada de la Desviación
varianza (s) Estándar
Distancia entre el
valor mayor y el valor
Recorrido
menor observado de
la distribución
Relaciona la
Coeficiente
desviación estándar
de
con la media de un
Variación
grupo de datos
Medidas de Dispersión
Varianza Desvío cuadrático
Marisa, Facundo y Fabián deciden juntarse a cenar para distenderse. Llegada la noche, ordenan una pizza y gaseosas. Al llegar el
delivery algunos “ponen” más plata y al final de la noche, dividen. Supongamos que la pizza y las gaseosas costaron $300 en total.
Cuando llegó el delivery y juntaron la plata, Marisa puso $150, Fabián $100 y Facundo $50. Ahora, terminada la noche y pronto a irse
cada uno a su casa, deciden “dividir”. En estos casos, si la intención es ser equitativo en los gastos, calcularíamos el dinero que tiene
que poner cada uno. Para ello sumamos todo lo que puso cada uno ($150 + $100 + $50) y lo dividimos por tres. De este modo: $300 Es el promedio de los cuadrados de
/ 3 = $100. las diferencias entre cada
observación y la media
Es una propiedad de la
Media, por ser un punto de
equilibrio entre las
observaciones
1. Calculamos la media (X̅)
2. Calculamos a qué distancia se encuentra cada uno (es decir, la
distancia entre “lo que puso” y “lo que tendría” que poner cada uno
para ser equitativos: Restamos a cada valor la media
Si sumamos
todas las
diferencias el
Desvíos
resultado es cero
Medidas de Dispersión
Varianza
1. Calculamos la media (X̅ = 100)
2. Calculamos a qué distancia se encuentra cada uno (es decir, la distancia entre “lo que puso”
y “lo que tendría” que poner cada uno para ser equitativos: Restamos a cada valor la media
A mayor varianza,
mayor dispersión y
3. Sumamos los desvíos = Nos da siempre 0 mayor
heterogeneidad
4. Elevamos los desvíos al cuadrado
($50)2 + ($0)2 + (-$50)2
$2500 + $0 + $2500 = $5000
5. Dividimos por la cantidad de los valores (n = 3)
Es el promedio de los cuadrados de
las diferencias entre cada
observación y la media
Medidas de Dispersión
Varianza
Inconvenientes del uso de la Varianza como medida de dispersión
Sus unidades se expresan al cuadrado (pesos al cuadrado, notas al cuadrado)
No transmite claramente la dispersión de los datos: cuanto más grande es el valor de
la varianza, mayor es la dispersión y no refleja con claridad la variación real. Ej. entre el
dinero que puso Marisa, Fabián y Facundo ($50, $150 y $100) no se acerca en ningún caso a
1666,67.
No tiene un límite superior, ya que su valor es sensible al tamaño de los valores de la
variable. Si la varianza es muy grande, es difícil determinar si se debe a que los datos
presentan una gran variabilidad, o si es grande porque los valores de la variable lo son.
Medidas de Dispersión
Desviación Estándar
Raíz cuadrada de la varianza
El dinero que pusieron
Marisa, Fabián y Facundo
se desvía, en promedio,
$40,82 en relación con la
media ($100)
Constituye la medida más utilizada en informes y
publicaciones científicas para describir la dispersión de una
distribución
Medidas de Dispersión
Recorrido
Distancia entre el valor mayor y el valor menor observado de la distribución
El recorrido rara vez es
utilizado por investigadores
psicológicos, ya
que se trata de una forma
muy burda e imprecisa de
describir la dispersión Diferencia entre los valores máximo y mínimo de la variable (R)
Imaginemos que los siguientes datos corresponden a las calificaciones de alumnos que
cursan psicoestadística en modalidad presencial y senior, respectivamente:
6 7 7 7 7 7 10
6 77 8 8 9 10
En ambos casos da
la misma dispersión
(R = 4)
Medidas de Dispersión
Coeficiente de Variación
Relaciona la desviación estándar con la media de un grupo de datos
Se utiliza para comparar
conjuntos de datos cuya Esta fórmula hay que saberla
media es diferente o su
unidad de medida es
diferente
Edades de los alumnos de la clase de psicoestadística (modalidad presencial): 19, 20, 18, 21, 22.
Edades de los alumnos de la clase de psicoestadística (modalidad senior): 18, 24, 21, 17.
Promedio/Media = 20
SE EXPRESA EN PORCENTAJE
Módulo 2
Expresión resumida de la
información:
Relaciones entre Variables.
Coeficientes de asociación y
correlación
Relaciones entre Variables Al identificar relaciones entre
variables proporcionamos una
Factor explicación sobre un hecho
Explicativo
Buscar relaciones entre
variables es comenzar a
transitar el
camino de la explicación
de los fenómenos que
observamos, es buscar
respuesta
a los “por qué”
Fenómeno a
Explicar
¿Por qué sentimos ansiedad
cuando elegimos una
carrera? ¿De qué depende
nuestro nivel de decisión? HIPÓTESIS : explicación parcial
Relaciones entre Variables
Orden cronológico
En algunos casos puede
identificarse una secuencia
cronológica, señalando cuál de
los dos eventos sucede primero,
en otros esta distinción no es
Establecer de manera segura y hay casos en que su
hipotética una relación ocurrencia conjunta o sucesiva se
entre dos variables equivale
debe a otras razones
a afirmar que, por alguna
razón, los cambios de una de
ellas van acompañados de
cambios en la otra
Una relación entre dos variables es simétrica cuando es de variación
conjunta y no puede identificarse a una variable como previa a la otra
Una relación entre dos variables es asimétrica cuando una de las variables
precede (lógica o cronológicamente) a la otra y puede identificarse a una
como antecedente y a la otra como consecuente.
Esto no quiere decir que cambia a causa de la otra
Relaciones entre Variables
Dirección
Si se formula como hipótesis que el tipo de
escuela secundaria (variable antecedente, de nivel
nominal) a la que se asistió tiene relación con el
rendimiento que se alcanza en la carrera
universitaria (variable consecuente, de nivel
La clasificación solo tiene ordinal), no es posible establecer la dirección de
sentido si puede hablarse de
esta relación, porque no se cumple que ambas
aumento o disminución, es
decir, si es factible realizar variables sean al menos ordinales
juicios de orden entre las
categorías de las variables
Una relación entre dos variables medidas a nivel ordinal o superior es
directa si cuando los valores de una de ella aumentan, también aumentan
los de la otra
A mayor autoeficacia mayor nivel de decisión de carrera
Se llama inversa a la relación entre dos variables de nivel ordinal o
superior en la que los incrementos en los valores de una de ellas van
acompañados de disminuciones en los valores de la otra
A mayor autoeficacia menor nivel de ansiedad decisional
Relaciones entre Variables
Intensidad
“X tiene mucha influencia en Y”
La idea de mucha o poca influencia es
Para cuantificar la de intensidad de la relación. Cuando hay
la intensidad existen muchos factores explicativos para un fenómeno,
una gran cantidad de es importante saber cuáles factores inciden más o
coeficientes que se menos en el fenómeno y a eso se responde
usan para reconocer si indicando la intensidad de cada relación.
se trata de relaciones
fuertes, débiles o
simplemente
inexistentes
La intensidad de una relación es una medida de la fuerza con que los
cambios en una variable afectan los cambios en la otra (si es una relación
asimétrica) o bien, de la frecuencia con que los cambios de una variable
acompañan a los de la otra (si se trata de una relación simétrica)
Relaciones entre Variables
Intensidad - Coeficientes
Q de Kendall: 2 variables nominales dicotómicas
Chi-Cuadrado - Coeficiente C de Pearson/ V
de Cramer: Variables nominales politómicas
Ro de Spearman: Variables ordinales
Lineal de Pearson: variables intervalares o
proporcionales
Relaciones entre Variables
Coeficiente Q de Kendall
El coeficiente Q de Kendall - Yule mide la intensidad de la relación
su cálculo tiene en
cuenta el modo en que
A B las frecuencias se
distribuyen entre las
C D
cuatro celdas de la tabla.
Menor a .10 = Nula
Entre .10 y .30 = Débil El cálculo de este coeficiente da un número que puede ser positivo o negativo pero
Entre .30 y .50 = Moderada que siempre se encuentra entre -1 y 1
Mayor a .50 = Fuerte
Relaciones entre Variables
Coeficiente Chi-Cuadrado
Independencia Estadística Cuando decimos que X no tiene efectos
sobre Y, indicamos que Y sucede tanto si X
está presente como si no lo está. La
Se calculan las frecuencias de las independencia de dos variables es
celdas que se esperarían encontrar equivalente a que no haya asociación entre
si las variables fueran
ellas.
independientes. Para hacer esto es
suficiente multiplicar las
frecuencias marginales
correspondientes a cada celda
y dividir el resultado por el total de
casos
Relaciones entre Variables
Independencia Estadística
Coeficiente Chi-Cuadrado
Si consideramos la violencia total, la
interpersonal es la más frecuente (60%),
1. Una primera aproximación consiste en calcular frecuencias relativas (porcentajes según las
seguida de la autoinfligida con el 30%.
columnas)
Este patrón de distribución en las
distintas formas de violencia se
mantiene en las diferentes áreas, pero
es más acentuado en las rurales. Por el
contrario, la violencia autoinfligida, que
es el 30% del total, sube al 41% en
grandes ciudades y solo representa el
14% de las formas de violencia que se
observan en áreas rurales.
Relaciones entre Variables
Independencia Estadística
Coeficiente Chi-Cuadrado
Buscaremos ahora de cuantificar
2. Usamos el concepto de independencia estadística para calcular las frecuencias esperadas la intensidad de esa relación, para
correspondientes lo que nos preguntaremos cuáles
serían las frecuencias de las
celdas si el tipo de violencia fuera
independiente del área donde
sucede, es decir, si se observara la
misma proporción de los distintos
tipos de violencia en todas las
áreas.
Para la celda 1,2
(Autoinfligida/ciudades
grandes)
Relaciones entre Variables
Coeficiente Chi-Cuadrado
Si halláramos que nuestras frecuencias
observadas son muy similares a las que se
3. Comparamos las frecuencias obtenidas bajo la hipótesis de independencia con las frecuencias esperan bajo la hipótesis de independencia,
observadas diríamos que las variables “están cerca” de ser
independientes, o lo que es equivalente, que
habría escasa relación entre ellas. Por el
contrario, si las frecuencias observadas fueran
muy diferentes de las esperadas, creeríamos que
las variables “están lejos” de ser independientes,
es decir, que habría alguna relación entre ellas.
para medir la distancia entre
los dos conjuntos de
frecuencias (observadas y
esperadas) se usa la siguiente
expresión:
La expresión nos dice que deben restarse
cada una de las frecuencias esperadas de
cada observada correspondiente, elevar esa
diferencia al cuadrado y dividir
el resultado por cada una de las frecuencias
esperadas
Relaciones entre Variables
Coeficiente Chi-Cuadrado
El número que resulta de esta
operación se llama puntaje chi
cuadrado (𝜒2) y es una medida de la Para comparar la intensidad de la asociación,
distancia a la que se encuentran las el puntaje 𝜒2 solo en válido si las tablas tienen
frecuencias observadas de las que se la misma dimensión y el mismo número de
esperaría encontrar si las variables casos.
fueran independientes.
No puede ser negativo, ya que proviene de la suma de números al cuadrado
Solo puede ser cero si todos los términos de la suma son cero, es decir, si cada frecuencia observada es
exactamente igual a la esperada correspondiente. En ese caso no habría duda en decir que las variables son
independientes, cumplirían exactamente con la definición de independencia estadística.
Indica si las frecuencias observadas están cerca o lejos de las
esperadas, pero ¿qué tan grande debe ser para que consideremos lejanas a las
frecuencias?
Puede ser indefinidamente grande
Su valor depende del número de casos que se evalúan y de la dimensión de la tabla.
Relaciones entre Variables
Coeficiente de Correlación por Rangos Ro de
Variables Ordinales Spearman
Para calcularlo:
1. Transformar los valores de las variables en rangos, de mayor a menor, de manera que al máximo valor de cada variable corresponda el 1, al siguiente el 2 y así
sucesivamente
A diferencia de los coeficientes usados para variables nominales, ahora el signo
importa
Cuando es positivo da cuenta de una relación directa entre las dos variables,
una relación en la que cuando una aumenta, la otra también lo hace.
2. Una vez construidos los rangos, se observa, para cada caso la diferencia
Cuando es negativo indica relación inversa, el crecimiento de una variable se
entre el rango de una variable y de la otra, esas diferencias se llamarán d acompaña del decrecimiento de la otra.
Relaciones entre Variables
Coeficiente Lineal de Pearson
Variables Intervalares o Proporcionales: Mide relaciones lineares entre variables
Relaciones entre Variables
Coeficiente Lineal de Pearson
Cuando es positivo da cuenta de una
relación directa entre las dos variables,
una relación en la que cuando una
aumenta, la otra también lo hace.
Cuando es negativo indica relación
inversa, el crecimiento de una variable se
acompaña del decrecimiento de la otra.