Definición de Distribución bidimensional
Distribución bidimensional, distribución estadística en la que
intervienen dos variables, x e y, y, por tanto, a cada individuo le
corresponden dos valores, xi, yi.
Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi)
representado en un diagrama cartesiano. Así, a cada individuo de la distribución le
corresponderá un punto, y toda la distribución se verá representada mediante un
conjunto de puntos.
Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se
les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las
matemáticas (Ma).
Esta tabla es una distribución bidimensional porque intervienen dos variables:
valoración Mu, valoración Ma. A cada individuo le corresponden dos valores:
A(5,6), B(7,10), C(4,5), D(8,6), E(2,4). De este modo se asocia a cada individuo un
punto en un diagrama cartesiano:
Esta representación gráfica de una distribución bidimensional se llama
nube de puntos o diagrama de dispersión.
CORRELACIÓN
Entre las dos variables que determinan una distribución bidimensional puede
existir una relación más o menos estrecha que se llama correlación, y se puede
medir mediante el coeficiente de correlación, r, que es un número, asociado a los
valores de las dos variables. El coeficiente de correlación puede valer entre -1 y 1.
Cuando r = 1 existe una relación funcional entre las dos variables de modo que el
valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube
están todos situados sobre una recta de pendiente positiva.
Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas
temperaturas, x1, x2,…, xn, y se miden con precisión sus correspondientes
longitudes, y1, y2,…, yn. Las longitudes se obtienen funcionalmente a partir de las
temperaturas de modo que, conociendo la temperatura a que se va a calentar, se
podría obtener la longitud que tendría la barra.
Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte
y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los
de la otra. Los puntos de la nube se sitúan próximos a una recta de pendiente
positiva.
Es el caso de las estaturas, x1, x2,…, xn, y los pesos, y1, y2,…, yn, de diversos
atletas de una misma especialidad. A mayor estatura cabe esperar que tengan
mayor peso, pero puede haber excepciones.
Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la
correlación es muy débil (prácticamente no hay correlación). La nube de puntos es
amorfa.
Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus
resultados: puntuación del dado rojo, xi; puntuación del dado verde, yi. No existe
ninguna relación entre las puntuaciones de los dados en las diversas tiradas.
Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación
fuerte y negativa. Los valores de cada variable tienden a disminuir cuando
aumentan los de la otra. Los puntos de la nube están próximos a una recta de
pendiente negativa.
Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita,
xi, y sus índices de natalidad, yi, se obtiene una distribución de este tipo, pues
suele ocurrir que, grosso modo, cuanto mayor sea la renta per cápita menor será
el índice de natalidad.
Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente
negativa. Existe una relación funcional entre las dos variables.
PARÁMETROSENUNADISTRIBUCIÓNBIDIMENSIONAL
Cada una de las dos variables x, y de una distribución bidimensional tiene sus
propios parámetros. Para el estudio de la correlación se necesitan sus medias, ,
, y sus desviaciones típicas, σx, σy.
Hay además un nuevo parámetro, σxy, llamado covarianza, que sirve para medir
el grado de relación entre las dos variables: cómo varía cada una con relación a la
otra.
La covarianza de una distribución bidimensional de n individuos dados por los
pares de valores (x1,y1), (x2,y2),…,(xn,yn), se calcula mediante la fórmula
siguiente:
La segunda expresión es más cómoda de aplicar cuando las medias , , no son
números enteros.
El coeficiente de correlación, r, se obtiene dividiendo la covarianza por el producto
de las desviaciones típicas:
Este parámetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud
y la y un peso, los valores y σx son longitudes, y sus valores varían según que
los datos estén dados en centímetros, en metros…; los valores de y σy son
pesos, y sus valores varían según las unidades en que se expresen los datos; la
covarianza, σxy, es el producto de una longitud por un peso, y su valor varía
según las unidades en que se den xi, yi; sin embargo, el coeficiente de correlación
es un número abstracto cuyo valor no depende de las unidades en que se hallen
los valores de las variables.
Además, el hecho de que r tome valores entre –1 y 1 (-1 ≤ r ≤ 1) hace que resulte
muy cómodo interpretar sus resultados. Por todo ello, r es un parámetro
sumamente adecuado para calcular la correlación entre dos variables estadísticas.
A continuación, a modo de ejemplo, se realiza el cálculo de los parámetros
estadísticos para hallar la correlación de la siguiente distribución dimensional:
Se empieza situando los datos de modo que resulte sencillo hallar las columnas
xi2, yi2, xiyi:
Las sumas de las columnas son:
Σxi = 26 ; Σyi = 31 ;
Σxi2 = 158 ; Σyi2 = 213 ;
Σxiyi = 176
Con estos resultados se obtienen los parámetros del siguiente modo:
RECTASDEREGRESIÓN
Se llama recta de regresión a una recta que marca la tendencia de la nube de
puntos. Si la correlación es fuerte (tanto positiva como negativa) y, por tanto, los
puntos de la nube están próximos a una recta, ésta es la recta de regresión.
Matemáticamente hay dos rectas de regresión, la recta de regresión de Y sobre X
y la de X sobre Y.
La recta de regresión de Y sobre X es aquella y = ax + b para la cual la suma de
los cuadrados de las desviaciones en el sentido de las ordenadas de cada punto a
ella es mínima.
Al obligar a que Σdi2 = Σ(yi – axi – b)2 sea mínima, se obtiene la ecuación
La recta de regresión de X sobre Y es aquella para la cual la suma de los
cuadrados de las desviaciones en el sentido de las abscisas de cada punto a ella
es mínima.
Su ecuación es
que también se puede poner así:
Las rectas de regresión tienen las siguientes peculiaridades:
Ambas pasan por el punto (,) llamado centro de gravedad de la distribución.
Los valores se llaman coeficientes de regresión de Y sobre X y de X sobre Y,
respectivamente. Las pendientes de las rectas de regresión son byx y 1/byx.
Cuando la correlación es fuerte, las dos rectas de regresión son muy próximas
(son la misma si r = ±1). Si la correlación es débil, las dos rectas de regresión
forman un ángulo grande.
Cuando |r| es próximo a 1 la recta de regresión sirve para realizar estimaciones
fiables de una de las variables para nuevos valores de la otra variable.
Fuente: [Link]
Distribuciones bidimensionales
Las distribuciones bidimensionales son aquellas en las que se estudian al mismo
tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura
de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad;
potencia y velocidad de una gama de coches deportivos.
Para representar los datos obtenidos se utiliza una tabla de correlación:
X/Y y1 y2 ..... ym-1 ym
x1 n1,1 n1,2 x n1,m-1 n1,m
x2 n2,1 n2,2 x n2,m-1 n2,m
..... x x x x x
xn-1 nn-1,1 nn-1,2 x nn-1,m-1 nn-1,m
xn nn,1 nn,2 x nn,m-1 nn,m
Las "x" representan una de las variables y las "y" la otra variable. En cada
intersección de una valor de "x" y un valor de "y" se recoge el número de veces que
dicho par de valores se ha presentado conjuntamente.
Ejemplo: Medimos el peso y la estatura de los alumnos de una clase y obtenemos
los siguientes resultados:
Estatur
Alumno Peso Alumno Estatura Peso Alumno Estatura Peso
a
x x x x x x x x x
Alumno Alumno
Alumno 1 1,25 32 1,25 31 1,25 33
11 21
Alumno Alumno
Alumno 2 1,28 33 1,28 35 1,28 32
12 22
Alumno Alumno
Alumno 3 1,27 31 1,27 34 1,27 34
13 23
Alumno Alumno
Alumno 4 1,21 34 1,21 33 1,21 34
14 24
Alumno Alumno
Alumno 5 1,22 32 1,22 33 1,22 35
15 25
Alumno Alumno
Alumno 6 1,29 31 1,29 31 1,29 31
16 26
Alumno Alumno
Alumno 7 1,30 34 1,30 35 1,30 34
17 27
Alumno Alumno
Alumno 8 1,24 32 1,24 32 1,24 33
18 28
Alumno Alumno
Alumno 9 1,27 32 1,27 31 1,27 35
19 29
Alumno Alumno Alumno
1,29 35 1,29 33 1,29 34
10 20 30
Esta información se puede representar de un modo más organizado en la siguiente tabla
de correlación:
Estatura / Peso 31 kg 32 kg 33 kg 34 kg 35 kg
1,21 cm 0 0 1 2 0
1,22 cm 0 1 1 0 1
1,23 cm 0 0 0 0 0
1,24 cm 0 2 1 0 0
1,25 cm 1 1 1 0 0
1,26 cm 0 0 0 0 0
1,27 cm 2 1 0 2 1
1,28 cm 0 1 1 0 1
1,29 cm 3 0 1 1 1
1,30 cm 0 0 0 2 1
Tal como se puede ver, en cada casilla se recoge el número de veces que se
presenta conjuntamente cada par de valores (x,y).
Tal como vimos en las distribuciones unidimensionales si una de las variables (o las
dos) presentan gran número de valores diferentes, y cada uno de ellos se repite en
muy pocas ocasiones, puede convenir agrupar los valores de dicha variable (o de
las dos) en tramos.
Fuente: [Link]
bidimensionales-l11222