Variables estadsticas
bidimensionales
Se
trata de variables que surgen
cuando se estudian dos
caractersticas asociadas a la
observacin de un fenmeno.
Variables estadsticas
bidimensionales
Ejemplo 1.- Estudiamos la talla, medida en cm. y
el peso, medido en kg. de un grupo de 10
personas, podemos obtener los siguientes valores
Talla
(cms
)
16
0
16
5
16
8
17
0
17
1
17
5
17
5
18
0
18
0
18
2
Peso
(kgs)
55
58
58
61
67
62
66
74
79
83
Podemos
llamar X a la talla e Y al peso con
lo que se obtendra la variable
bidimensional (X, Y) que toma 10 valores,
que son las 10 parejas de valores de la
tabla anterior: (160,55), (165,58), etc.
Variables estadsticas
bidimensionales
En algunos casos el nmero de "parejas" de
valores (x,y) es grande y adems muchos de ellos
aparecen repetidos; en este caso se utiliza una
"Tabla de doble entrada" como la que se
muestra a continuacin en el ejemplo 2
En la primera fila se colocan los valores de una de
las caractersticas o variable que componen la
variable bidimensional y en la primera columna
los de la otra.
Variables estadsticas
bidimensionales
Ejemplo 2.- Se representa por X el nmero de hijos de
100 familias y por Y el nmero de hijas
# de hijas (Y)
# de hijos
(x)
0
1
2
3
4
0 1 2 3
----------- ---- ---- ---- ------------- 10 15 15
----------- 10 12 7
----------- 8 4 3
----------- 3 2 1
----------- 2 1 1
3
2
1
0
0
Variables estadsticas bidimensionales
La
lectura de esta tabla es sencilla. Por
ejemplo: habra 7 familias que tendran 1
hijo y 2 hijas y ninguna familia tendra 3
hijos y 3 hijas.
Representacin grfica
Diagramas de dispersin o
nubes de puntos
Variables Estadisticas
Bidimencionales
Covarianza
Correlacion
Diagramas de dispersin o nubes de
puntos
La
representacin grfica de este
tipo de variables es en realidad
semejante a la respresentacin de
puntos en el plano, usando unos ejes
de coordenadas. Cada pareja de
valores da lugar a un punto en el
plano y el conjunto de puntos que se
obtiene se denomina "diagrama de
dispersin o nube de puntos".
Diagramas de dispersin o nubes de
puntos
En el ejemplo 1 anterior en el que se estudiaba la talla y el
peso de 10 personas se obtendra el siguiente diagrama de
dispersin: (En el eje X se representa la talla en cm. y en el
eje Y el peso en kg.)
Diagramas de dispersin o nubes de
puntos
Se puede ver en el primera figura que corresponda
al diagrama de talla - peso que la serie de puntos
presenta una tendencia "ascendente" . Se dice en
este caso que existen entre las dos variables una
"dependencia directa" .
En caso en que la tendencia sea "descendente" se
dira que estaramos ante una " dependencia
inversa "
Naturalmente en caso en que no se pueda observar
una tendencia clara estaramos ante una
dependencia muy dbil que no se puede observar
mediante la nube de puntos
Diagramas de dispersin o nubes de
puntos
Covarianza y su
interpretacin
Covarianza
Sean
(xi, yi ) pares de observaciones
de dos caracteristicas X y Y, y sean
sus respectivas medias. La
covarianza entre entre las dos
variables se define por :
Covarianza
Donde
xi e yi representan los pares de
valores de la variable y el producto
corresponde al producto de las medias
aritmticas de las variables x e y
respectivamente.
Pasos para calcular la covarianza de una serie de eventos
Paso 1: Se calcula xiyi , esto es la sumatoria de los productos de las
variablares x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que el numero de eventos o el numero de pares de
cariables
Paso 3: Se calcula
variables
, que es el producto de las medias de ambas
Paso 4: Obtenidos todos los datos se sustituyen en la formula y se
obtiene el resultado
Calculemos la covarianza para el ejemplo primero correspondiente a
la variable talla - peso
Paso 1:
La suma de todos los productos de los valores de x (talla) por los
de y (peso) sera:
160 55 + 165 58 + 168 58 + 170 61 + 171 67 + 175 62 +
175 66 + 180 74 + 180 79 + 182 83 = 114987
Paso 2:
Definimos n como el numero de eventos en este caso es 10
Paso 3:
A este valor debemos restarle el producto de las medias de ambas
variables que naturalmente sabes calcular:
Media de x (talla): 172.6
= 172.6 * 66.3 = 11443.38
Media de y (peso): 66.3
De acuerdo ala formula tenemos que:
Sxy = (114987 / 10 ) 11443.38
Sxy = 55.32
Hemos obtenido un valor positivo para la covarianza que
corresponde a una dependencia directa como ya habamos
Regresion y Correlacion
Recta de regresion
Relacion entre dos variables
Variable independiente x
Variable dependiente y
funcin lineal del tipo y = ax + b, su grfica correspondera
a una recta
recta de regresin.
se deduce que la recta de regresin debe pasar por el punto correspondiente a
las medias de ambas variables y que debe tener por pendiente la covarianza
dividida por la varianza de la variable x.
Con ello la expresin de la recta de regresin ser:
Esta es la llamada "Recta de regresin de y sobre x". Si se deseara estudiar la
dependencia de x respecto a y slo habra que cambiar en la expresin de la
recta x por y, obtenindose la recta regresin de x sobre y
En la imagen siguiente se muestra la recta de regresin de y (peso) sobre x (talla)
del ejemplo 1 de este tema. En este caso se supone que represente cmo depende
el peso de una persona de su talla
Si recordamos que entre la talla y el peso decamos que exista una dependencia
directa, la recta de regresin lo confirma ya que su pendiente es positiva: a medida
que aumenta la talla aumenta el peso. Por tanto:
Dependencia directa - Pendiente de la recta positiva - Funcin creciente
Utilidad tiene la recta de regresin
Mediante la recta de regresin podramos obtener de
manera aproximada el valor de la variable dependiente (y)
de la que conociramos la variable independiente (x), en
una poblacin semejante a aquella de la que se ha obtenido
la muestra
De manera ms precisa, si conocemos la expresin de la
recta de regresin, se pueden calcular valores para la
variable y, conocidos los de x, como si se tratara de una
funcin
Ejemplo :
Si observamos la grfica, podramos suponer por ejemplo que una persona de 185
cm pesara algo ms de 80 kg
De acuerdo ala formula
La recta de regresin de la variable y (talla) sobre x (peso) ser la recta:
-que pasa por el punto (172,6 ; 66,3) (medias repectivas de (x,y))
-tiene de pendiente: 55.32 / 50.71 = 1.0909
Recta: y 66.3 = 1.0909 ( x 172.6) que operando y simplificando queda:
y = 1.0909x 121.9
El valor del peso que suponamos aproximado para una talla de 185 cm
sera:
Peso= 1.0909 185 121.9 = 79.9
Este valor obtenido es algo menor al esperado. Eso quiere decir que las
predicciones hechas con la recta de regresin no son exactas. Mas
adelante precisaremos la "fiabilidad" de las mismas.
Por tanto la recta de regresin se puede utilizar para realizar
predicciones para la variable y a partir de valores conocidos de la
variable x.
Coeficiente de correlacion
Una vez observado que en una variable bidimensional
existe una cierta dependencia entre las dos caractersticas
o variables que la forman (nube de puntos y covarianza),
podemos precisar el grado de dicha dependencia.
- Si los puntos de la nube estuvieran todos sobre la recta de
regresin se dira que existe una dependencia funcional.
De su estudio se encargan las funciones.
- Si los puntos no estn todos sobre la recta de regresin se
dice que entre las variables hay una cierta correlacin
lineal. Este es el caso que nos ocupa. Para cuantificar el
grado de dicha correlacin se usa el
Coeficiente de correlacin de Pearson. Si le llamamos r, su valor es:
Puede observarse que el signo del coeficiente de correlacin es el mismo que
el de la covarianza y puede deducirse que el valor del mismo esta comprendico
entre -1 y 1.
Se pueden deducir las siguientes conclusiones relativas al coeficiente de
correlacin (r):
- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es
directa y si es negativo inversa.
- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las
predicciones que se realicen a partir de la recta de regresin sern bastante
fiables.
- Si r se acerca a 0 la dependencia es dbil y por tanto las predicciones que se
realicen a partir de la recta de regresin sern poco fiables
Ejemplo:
Calcularemos la correlacion para el ejemplo de las tallas y los pesos
Sxy = 55.32
Sx = 50.71
r = 55.32 / (50.71 * 752.81)
Sy = 752.81
r =0.0014
r se acerca a 0 la dependencia es dbil y por tanto las predicciones que se
realicen a partir de la recta de regresin sern poco fiables
Ejercicios
Covarianza
Correlacion
Ejercicio 1:En el ejemplo 2 (hijos - hijas) se puede comprobar que tambin la
covarianza es positiva. (Se deja como ejercicio la comprobacin). Tngase en
cuenta que en este caso la variable bidimensional toma "100 valores"
Ejercicio 2:De la siguiente tabla de las perdidas
Esperadas. En rendimiento de soya por riego
Inoportuno Obtenga:
a) La covarianza
b) Tipo de dependencia
c) correlacion
Partimos de la escena siguiente, en la que
se pueden ver inicialmente la nube de puntos
de la variables bidimensional que toma los
siguientes 6 pares de valores:
Ejercicio 3
- A la vista de la nube de puntos qu tipo de dependencia se puede suponer?
-Calcular la covarianza y confirmar la afirmacin anterior
- Calcular el valor de y si se sabe que x = 15
- calcular la correlacion