estadística Docente: Loyola larico
DISTRIBUCIONES BIDIMENSIONALES
1.1 Variables Estadísticas Bidimensionales
En este tema se estudiará simultáneamente dos o más caracteres de una población. En el caso
de dos se habla de variable bidimensional o más variables estudiadas conjuntamente se
denominará multidimensional. El estudio se realizará con variables cuantitativas discretas y
variables continúas o discretas agrupadas en intervalos de clase, en ese caso se trabajará con
las marcas de clase.
Este fenómeno resulta de la observación de una población de los rasgos, características o
atributos (dos variables), donde se obtiene un par de medidas y en consecuencia dos
variables.
Ejemplos:
a. Gastos de publicidad y ventas de una empresa.
b. Talla y peso de los empleados de una empresa.
c. Calificaciones de estadística y cálculo de los estudiantes de una clase., etc.
Estas variables resultantes de la observación de un fenómeno respecto de dos modalidades
se llaman variables estadísticas bidimensionales y se representaran de la siguiente forma:
i. Los valores de una variable estadística bidimensional son pares de números reales de la
forma (xi, yj).
Individuos X Y
A x1 y1
B x2 y2
C x3 y3
…. … ..
ii. Se representan en un sistema de ejes cartesianos se obtiene un conjunto de puntos llamado
diagrama de dispersión o nube de puntos.
1
estadística Docente: Loyola larico
Ejemplo: Nube de puntos o diagrama de dispersión de la distribución dada por la tabla
siguiente:
a. Notas de Matemáticas y Física de 10 estudiantes
Matemática Física
5 4
6 5
2 3
9 8
4 4
5 5
1 2
3 2
7 6
7 8
GRAFICO DE NUBE DE PUNTOS
10
9
8
FISICA
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
MATEMATICAS
b. Entre los empleados de una empresa se ha realizado una encuesta sobre el consumo
del tabaco, que ha arrojado los siguientes resultados:
Hábito Fumadores No fumadores Totales
De filas
Sexo
Varones 49 64 113
2
estadística Docente: Loyola larico
Mujeres 43 37 80
Totales de columnas 92 101 193
1.2 Distribuciones de Frecuencias
Se disponen las frecuencias en una tabla de doble entrada donde la x i y la yj están ordenadas
en forma creciente. Recibe el nombre de tabla de frecuencias o tabla de correlación.
Si hay pares que se repiten se agrupan siendo fij la frecuencia absoluta del par (xi, yj).
Las sumas:
fij = fi , frecuencia absoluta de xi.
fij =f’j , frecuencia absoluta de yj
Se llaman frecuencias absolutas marginales de las variables X e Y respectivamente.
fij = N=número total de pares.
De tal forma que se construye la siguiente tabla de doble entrada:
X x1 x2 .... xk Frecuencias
... absolutas
Y Marginales de Y
y1 f11 f21 .... fk1 f’1
.
y2 f12 f22 .... fk2 f’2
..
...... ..... .... .... ... ....
.
yr f1r f2r ... fkr f’r
Frecuencias f1 f2 .. fk fij = N
absolutas
Marginales de X
3
estadística Docente: Loyola larico
Marginalizando las variables:
Frecuencias Frecuencias
Variables absolutas Variables absolutas
Xi marginales Yj marginales
de Xi de Yj
f1
x1 f’1
y1
f2
x2 f’2
y2
x3 f3 y3 f`3
………. ………. ....
fr
xr f’r
yr
fij = N fij = N
Por consiguiente, se tiene los parámetros estadísticos marginalizados:
Media de la variable X:
∑ 𝑥𝑖 ∗ 𝑓𝑖
𝑥=
𝑁
Media de la variable Y:
∑ 𝑦𝑗 ∗ 𝑓𝑗
𝑦=
𝑁
Varianza de la variable X:
4
estadística Docente: Loyola larico
∑𝒌𝒊=𝟏(𝒙𝒊 − 𝒙
̅ )𝟐 ∗ 𝒇 𝒊
𝑠𝑥2 =
𝑵
Varianza de la variable Y:
∑𝒌𝒊=𝟏(𝒚𝒋 − 𝑦)𝟐 ∗ 𝒇𝒊
𝑠𝑦2 =
𝑵
Covarianza de XY:
∑ ∑(𝑥𝑖 ∗ 𝑦𝑗 ) ∗ 𝑓𝑖𝑗
𝑠𝑥𝑦 = − 𝑥∗𝑦
𝑁
2. CORRELACIÓN
Estudia la relación o dependencia que existe entre dos variables que intervienen en una
distribución bidimensional.
2.1 Coeficiente de Correlación Lineal: (r)
Es un número que mide el grado de dependencia entre las variables X e Y.
Se mide mediante la siguiente fórmula:
𝑆𝑥𝑦
𝑟=
𝑆𝑥 ∗ 𝑆𝑦
Su valor está comprendido entre – 1 y 1.
a. Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados
sobre una recta.
b. Si – 1< r < 0 se dice que las variables X e Y están también en dependencia aleatoria.
La correlación es negativa.
c. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia
aleatoria.
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil
a medida que se aproxima a 0.
5
estadística Docente: Loyola larico
0: correlación nula.
0.1: correlación pequeña.
0.3: correlación mediana.
0.5: correlación moderada.
0.7: correlación alta.
0.9: correlación muy alta.
2.2 Rectas de regresión lineal
Tenemos una distribución bidimensional y representamos la nube de puntos correspondiente.
La recta que mejor se ajusta a esa nube de puntos recibe el nombre de recta de regresión. Su
ecuación es la siguiente:
Recta de regresión de y sobre x:
𝑺𝒙𝒚
̅=
𝒚−𝒚 ̅)
∗ (𝒙 − 𝒙
𝑺𝒙 𝟐
Recta de regresión de x sobre y:
𝑺𝒙𝒚
̅=
𝒙−𝒙 ̅)
∗ (𝒚 − 𝒚
𝑺𝒚 𝟐
A partir de esta recta podemos calcular los valores de x conocidos los de y. La fiabilidad que
podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r
es muy pequeño no tiene sentido realizar ningún tipo de estimaciones.
Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales.
Si r = 1 o r = -1 , las estimaciones realizadas coincidirán con los valores reales.
Ejemplo:
Una compañía de seguros considera que el número de vehículos (Y) que circulan por una
determinada autopista a más de 120 km/h, puede ponerse en función del número de
accidentes (X) que ocurren en ella.
Durante 5 días obtuvo los siguientes resultados:
6
estadística Docente: Loyola larico
X 5 7 2 1 9
Y 15 18 10 8 20
a. Calcula el coeficiente de correlación lineal.
b. Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban
por la autopista a más de 120 km/h?
c. ¿Es buena la predicción?
Solución:
Disponemos los cálculos de la siguiente forma:
Accidentes Vehículos
xi yi xi2 yi2 xiyi
5 15 25 225 75
7 18 49 324 126
2 10 4 100 20
1 8 1 64 8
9 20 81 400 180
24 71 160 1113 409
∑ 𝑥𝑖 24 ∑ 𝑦𝑖 71 ∑ 𝑥𝑖2 2 160
𝑥= = = 4,8; 𝑦= = = 14,2; 𝑠𝑥2 = −𝑥 = − 4, 82 = 8,96
𝑁 5 𝑁 5 𝑁 5
∑ 𝑦𝑖2 2 1113 ∑ 𝑥𝑖 𝑦𝑖 409
𝑠𝑦2 = −𝑦 = − 14, 22 = 20,96; 𝑠𝑥𝑦 = − 𝑥. 𝑦 = − 4,8.14,2=13,64
𝑁 5 𝑁 5
a. Sol. a.
𝑠𝑥𝑦 13,64
𝑟= = = 0,996
𝑠𝑥 . 𝑠𝑦 √8,96. √20,96
b. Recta de regresión de y sobre x:
𝑠𝑥𝑦
𝑦−𝑦 = (𝑥 − 𝑥)
𝑠𝑥2
13,64
𝑦 − 14,2 = (𝑥 − 4,8)
8,96
𝑦 − 14,2 = 1,53(𝑥 − 4,8)
Para x = 6
7
estadística Docente: Loyola larico
𝑦 − 14,2 = 1,53(6 − 4,8) = 16,04
Entonces podemos suponer que ayer circulaban 16 vehículos por la autopista a más de 120
km/h.
c. La predicción hecha es buena ya que el coeficiente de correlación está muy próximo a 1.