ESTADÍSTICAS BIVARIABLES
CORRELACIÓN Y REGRESIÓN
Hasta ahora sólo hemos analizado una variable cada vez, pero a veces queremos investigar si
existe una relación entre dos variables, como la altura y la masa de una persona. Este tipo de
datos se conocen como bivariables.
PROBLEMA INICIAL
En un torneo juvenil, unos jóvenes atletas lanzan un disco cada uno. Se registra la edad y la
distancia lanzada por cada atleta.
Cosas en las que pensar:
a. ¿Crees que la distancia que puede lanzar un atleta está relacionada con su edad?
b. ¿Qué ocurre con la distancia de lanzamiento a medida que aumenta la edad del atleta?
c. ¿Cómo podrías representar gráficamente los datos para ver más claramente la relación
entre las variables?
d. ¿Cómo podemos medir la relación entre las variables?
En este capítulo consideramos datos bivariables, es decir, datos que tienen dos variables
distintas para cada individuo. En la mayoría de las situaciones del mundo real, no habrá una
relación exacta entre estas variables. Nuestra tarea consiste en encontrar el modelo que mejor
se ajuste a los datos y medir la fuerza de la relación entre las variables.
Por ejemplo, a cada atleta del Problema Inicial, se le han
registrado las dos variables edad y distancia lanzada.
Suponemos que la distancia lanzada dependerá de la edad
del atleta, por lo que la edad es la variable independiente
y la distancia lanzada es la variable dependiente.
ASOCIACIÓN ENTRE VARIABLES NUMÉRICAS
Podemos observar la relación entre dos variables numéricas mediante un diagrama de
dispersión. Normalmente colocamos la variable independiente en el eje horizontal y la
dependiente en el vertical.
En el Problema inicial, la variable independiente edad se sitúa
en el eje horizontal, y la variable dependiente distancia
recorrida se sitúa en el eje vertical.
Graficamos cada valor de los datos como un punto en el
diagrama de dispersión. Por ejemplo, el punto rojo representa
al atleta H, tiene 10 años y lanzó el disco 15 metros.
Por la forma general que forman los puntos, podemos ver que
a medida que aumenta la edad, también lo hace la distancia
lanzada.
CORRELACIÓN
La correlación se refiere a la relación o asociación entre dos variables numéricas.
Para describir la correlación entre dos variables hay que tener en cuenta varias características:
dirección, linealidad, intensidad, valores atípicos y causalidad.
DIRECCIÓN
Para una tendencia generalmente ascendente, decimos que la
correlación es positiva. Un aumento de la variable independiente
se traduce generalmente en un aumento de la variable
dependiente.
Para una tendencia generalmente descendente, decimos que la
correlación es negativa. Un aumento de la variable independiente
se traduce generalmente en una disminución de la variable
dependiente.
Para unos puntos dispersos al azar, sin tendencia al aumento ni a
la disminución, decimos que no hay correlación.
LINEALIDAD
Cuando existe una tendencia, si los puntos forman aproximadamente una línea recta, decimos
que la tendencia es lineal.
Estos puntos siguen una tendencia lineal. Estos puntos no siguen una tendencia lineal.
FUERZA
Para describir el grado en que los datos siguen una tendencia, hablamos de la fuerza de la
correlación. Suele describirse como fuerte, moderada o débil.
Fuerte Moderada Débil
Positiva Fuerte Positiva Moderada Positiva Débil
Negativa Fuerte Negativa Moderada Negativa Débil
VALORES ATÍPICOS
Los valores atípicos son puntos aislados que no siguen la
tendencia formada por el conjunto principal de datos.
Si un valor atípico es el resultado de un error de registro
o de graficación, debe descartarse. En cambio, si se trata
de un dato auténtico, hay que conservarlo.
En el diagrama de dispersión de los datos del
Problema Inicial, podemos decir que existe una
fuerte correlación positiva entre la edad y la
distancia lanzada. La relación parece ser lineal, sin
valores atípicos.
CAUSALIDAD
La correlación entre dos variables no significa necesariamente que una variable sea la causa de
la otra.
Por ejemplo:
- Se midió la longitud de los brazos y la velocidad de
carrera de una muestra de niños pequeños, y se encontró una
correlación fuerte y positiva entre las variables. Esto no significa
que los brazos cortos provoquen una reducción de la velocidad
de carrera, ni que una velocidad de carrera elevada haga que los
brazos se alarguen.
Más bien, existe una correlación fuerte y positiva entre las
variables porque tanto la longitud de los brazos como la
velocidad de carrera están estrechamente relacionadas con una
tercera variable, la edad. Hasta cierta edad, tanto la longitud de
los brazos como la velocidad de carrera aumentan con la edad.
- Durante varios años se registraron el número de televisores vendidos en Londres y el
número de perros vagabundos recogidos en Boston. Se observó una fuerte correlación positiva
entre ambas variables. Es evidente que el número de televisores vendidos en Londres no influye
en el número de perros vagabundos recogidos en Boston. Es una coincidencia que ambas
variables aumentaran durante este periodo de tiempo.
Si un cambio en una variable provoca un cambio en la otra, se dice que existe una relación causal
entre ellas. En estos casos, podemos decir que la variable independiente explica la variable
dependiente. Puede que sea más natural utilizar la terminología variable explicativa y variable
de respuesta. En los casos en los que no se aprecia una relación causal, no podemos concluir
que existe una relación casual basándonos únicamente en una alta correlación.
EJERCITACIÓN A
RESPUESTAS