Correlación simple.
Se define el concepto de correlación como la fuerza y sentido de asociación entre dos
variables aleatorias. Se describen algunos de los coeficientes de correlación más
utilizados, como el coeficiente de correlación de Pearson, el coeficiente de correlación de
Spearman y el coeficiente tau de Kendall.
Coeficiente de correlación simple.
Para calcular el coeficiente de correlación necesitamos, pues, un parámetro que nos
permita cuantificar esta relación. Para ello podemos disponer de la covarianza, que indica
el grado de variación conjunta de dos variables aleatorias.
El problema de la covarianza es que su valor depende de las escalas de medición de las
variables, lo que nos impide realizar comparaciones directas entre distintos pares de
variables. Para evitar este problema, recurrimos a una solución que ya nos es conocida y
que no es otra que la estandarización. El producto de la estandarización de la covarianza
serán los coeficientes de correlación.
Todos estos coeficientes tienen algo en común: su valor oscila desde -1 a 1. Cuánto más
se aleje el valor de 0, mayor será la fuerza de la relación, que será prácticamente perfecta
cuando alcance -1 o 1. En el 0, que es el valor nulo, en principio no existirá correlación
entre las dos variables.
El signo del valor del coeficiente de correlación nos indicará la otra cualidad de la relación
entre las dos variables: el sentido. Cuando el signo sea positivo significará que la
correlación es directa: cuando una aumenta o disminuye, la otra lo hace también en el
mismo sentido. Si el signo es negativo, la correlación será inversa: al cambiar una
variable, la otra lo hará en el sentido opuesto (si una aumenta, la otra disminuye, y
viceversa).
Hemos visto hasta aquí dos de las características de la correlación entre dos variables: la
fuerza y el sentido. Existe una tercera, la forma, que depende del tipo de línea que defina
el mejor modelo de ajuste. En esta entrada nos vamos a quedar con la forma más
sencilla, que no es otra que la correlación lineal, en la que la línea de ajuste es una recta,
pero que sepáis que hay otros ajustes no lineales.
Variable dependiente e independiente.
Las variables dependiente e independiente son las dos variables principales de
cualquier experimento o investigación. La independiente (VI) es la que cambia o es
controlada para estudiar sus efectos en la variable dependiente (VD). La dependiente
es la variable que se investiga y se mide.
Pueden ser vistas entonces como causa (variable independiente) y efecto (variable
dependiente). La independiente es controlada por el experimentador, mientras que la
dependiente cambia en respuesta a la independiente.
Las variables independientes son aquellas que pueden tomar diversos valores
numéricos (o argumentos) y generalmente se representan como x. Las variables
independientes afectan directamente a las variables dependientes (generalmente y).
La diferencia entre unas y otras tiene que ver con que una depende de la otra, y por lo
tanto la relación entre ambas puede usarse de manera controlada para estudiar el
modo en que dicha dependencia se produce. O sea, pueden comprenderse como
causa (x) y efecto (y), ya que la variable independiente está en manos del
investigador, mientras que la otra no.
Varianza.
Es una variable aleatoria es una medida de dispersión definida como la esperanza del
cuadrado de la desviación de dicha variable respecto a su media. Su unidad de medida
corresponde al cuadrado de la unidad de medida de la variable: por ejemplo, si la variable
mide una distancia en metros, la varianza se expresa en metros al cuadrado. La varianza
tiene como valor mínimo 0. La desviación estándar (raíz cuadrada positiva de la varianza)
es una medida de dispersión alternativa, expresada en las mismas unidades que los datos
de la variable objeto de estudio.
Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos
y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas
pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más
robustas.
Es una medida de dispersión que se utiliza para representar la variabilidad de un conjunto
de datos respecto de la media aritmética de los mismo. Así, se calcula como la suma de
los residuos elevados al cuadrado y divididos entre el total de observaciones. No
obstante, se trata de una medida que también puede calcularse como la desviación típica
al cuadrado.