1
ESTADÍSTICA BIDIMENSIONAL
Traer calculadora para hallar directamente la Media y SX.
1. VARIABLE ESTADÍSTICA BIDIMENSIONAL.
En los problemas que hasta ahora se han visto de Estadística , de cada elemento de la Población
estadística, tomábamos solamente un dato ( la talla, la edad, el peso, el nº de hermanos...). En la
Estadística bidimensional, de cada elemento de la Población, tomamos DOS datos. Ejemplo: De
cada alumno del Instituto tomamos su peso y su talla o la nota de Matemáticas y la de Lengua.
En los ejemplos anteriores se dice que “hay definida una Variable estadística bidimensional”:
( X, Y ) X = peso, Y = talla
( X, Y ) X = nota en Matemáticas, Y = nota en Lengua.
2. TIPOS DE TABLAS ESTADÍSTICAS.
PRIMER TIPO DE TABLAS: TABLAS ESTADISTICAS BIDIMENSIONALES SIMPLES:
EJEMPLO: A 8 alumnos de un Instituto, se les ha preguntado las calificaciones obtenidas en la
última evaluación en Matemáticas y Lengua. Los resultados fueron:
X=nota en Matem. 4 5 7 9 8 2 3 6
Y=nota en Leng. 3 6 7 8 7 3 5 7
SEGUNDO TIPO DE TABLAS: TABLAS ESTADÍSTICAS BIDIMENSIONALES DE DOBLE
ENTRADA:
EJEMPLO: A 31 alumnos de un Instituto, se les ha preguntado la edad y el número de horas que
dedica al estudio. Los resultados fueron:
Y=nº horas
X=Edad 1 2 3
14 3 1 0
15 0 2 1
16 1 3 5
17 0 4 1
18 1 3 6
2
3. REPRESENTACIÓN GRÁFICA DE LAS VARIABLES ESTADÍSTICAS
BIDIMENSIONALES.
La mas importante es “la nube de puntos ó diagrama de dispersión”:
En el 1er ejemplo: En el 2º ejemplo:
4. PÁRAMETROS DE LAS VARIABLES ESTADÍSTICAS BIDIMENSIONALES.
a) MEDIAS, DESVIACIONES TÍPICAS Y VARIANZAS DE X Y DE Y
EN EL PRIMER EJEMPLO ANTERIOR( sobre calificaciones ): Se calculan directamente con la
calculadora:
Media de X = 5,5 ; SX = 2,29 ; S2X = 5,24
Media de Y = 5,75 ; SY = 1,79 (redondeando) ; S2Y = 3,19 (para su cálculo se
usa el valor de SY que aparece en la
pantalla de la calculadora y no se usa el
valor 1,79)
EN EL SEGUNDO EJEMPLO ANTERIOR (sobre la edad y el número de horas de estudios): Las
tablas de las distribuciones marginales de X y de Y son:
X Y
14 4 Media de X = 16,45
15 3 SX= 1,36 Estos tres valores se hallan directamente con la
16 9 calculadora como en el ejemplo anterior.
17 5
18 10 S2X= 1,86
Y 1 2 3 Media de Y = 2,26 (redondeando)
f 5 13 13 SY=0,72
S2Y = 0,51
b) COVARIANZA DE LA VARIABLE ESTADÍSTICA BIDIMENSIONAL (X, Y)
3
i, j
x i x · y j y ·fij
x i ·y j ·fij
S XY x·y
N N
EN EL PRIMER EJEMPLO:
X Y X·Y
4 3 12 282
S XY 5,5·5,75 3,63
5 6 30 8
7 7 49
9 8 72 Es más cómodo, calcular xi ·y i directamente con la
8 7 56 calculadora, usando las teclas M+ y MR SIN el Mode “S.D.”
2 3 6
3 5 15
6 7 42 SUMA = 282
EN EL SEGUNDO EJEMPLO:
42 + 28 + 0 = 70
0 + 60 + 45 = 105
16 + 96 + 240 = 352
0 + 136 + 51 = 187
18 + 108 + 324 = 450
x ·y i j ·f ij 1.164
Es más cómodo, calcular x ·y i j ·fij directamente con la calculadora, usando las teclas M+
y MR SIN el Mode “S.D.”
1.164
S XY 16,45·2,26 0,37 (redondeando)
31
5. CORRELACIÓN.
La Correlación ó Teoría de la Correlación es una parte de la Estadística que estudia el grado de
dependencia que existe entre las dos variables X e Y de una variable estadística bidimensional
(X, Y).
Se dice que “Y depende funcionalmente de X” cuando a cada valor de X le corresponde un
solo valor de Y. En este caso, por la nube de puntos pasa una línea recta ó curva: EJEMPLOS:
4
Se dice que “entre X e Y existe una correlación positiva”, cuando al crecer X crece la Y.
La correlación será positiva cuando al crecer X decrece la Y. En el primer ejemplo anterior, la
correlación es negativa y en el 2º positiva.
La correlación puede ser “fuerte, débil ó nula”, si la nube de puntos es alargada, ancha ó
redondeada respectivamente. Ejemplos:
6. COEFICIENTE DE CORRELACIÓN LINEAL.
Cuando la nube de puntos se aproxima a una recta, se dice que “existe una correlación lineal entre
X e Y.
El “coeficiente de correlación lineal r” nos mide el grado en que la nube se acerca a una recta:
S xy
r
S x ·S y
Este coeficiente r tiene las siguientes propiedades:
r [-1; 1]
Si r = 1, la nube es una recta
5
Si r = 0, la correlación lineal es nula. Puede existir otro tipo de correlación
(parabólica, exponencial,...)
Si r se aproxima a 1, se dice que la correlación lineal es fuerte y la nube de puntos
se aproxima bastante a una recta
Si r se aproxima a 0, se dice que la correlación lineal es débil
OBSERVACIÓN: El coeficiente r es invariante por cambios de origen y escala, es decir si pasamos
de (x,y) a (x’,y’) de la forma:
x x0 y y0
x' y' , el valor de r no cambiaría . Puede ser x0 y0 y a b
a b
( Calot, pag. 332). Esta propiedad es útil para obtener ejercicios parecidos a partir de uno
resuelto.
3,62
EN EL EJEMPLO-1: r 0,88
2,29·1,79
0,33
EN EL EJEMPLO-2: r 0,34
1,36·0,72
7. REGRESIÓN.
La Teoría de la Regresión es una parte de la Estadística que se ocupa de hallar, en los casos en que
exista una correlación fuerte entre X e Y, una ecuación y = f(x) que relacione a las variables X e Y.
Esta ecuación nos permitirá, dado una valor de X de un elemento de la Población que no pertenezca
a la Muestra seleccionada, hallar un valor aproximado de Y.
En general, se procede así:
6
1º) Se dibuja la nube de puntos y se calcula un coeficiente de correlación llamado “Razón de
correlación”. Tanto el dibujo como este coeficiente nos dirá si la nube se acerca más ó menos a una
línea recta ó curva.
2º) En el caso en el que la nube se acerque a una línea, se averigua el tipo de línea que mejor
se ajuste a la nube ( recta, parábola, exponencial, logarítmica...)
3º) A continuación, se calculan por Métodos gráficos aproximados (como se hizo en el Curso
pasado, seleccionando libremente unos puntos) ó mejor por Métodos análiticos ( mínimos
cuadrados,...) los parámetros de ese tipo de línea:
Línea recta: y = ax+b 2 parámetros a y b
Parábola: y = ax2+bx+c 3 parámetros a, b y c
Potencial: y = axb
Exponencial: y = a · bx
En este Curso, sólo estudiaremos la Regresión lineal.
8. REGRESIÓN LINEAL. RECTAS DE REGRESIÓN.
Es un caso particular de la Regresión que trata el caso en el que la nube de puntos se aproxima a
una recta y, por lo tanto, r 1. En este caso, tiene sentido hallar la recta que más se aproxima a
esta nube de puntos.
La ecuación de esta recta se calcula por el “Método de los mínimos cuadrados” y pasa por ( x, y ).
Se distinguen dos rectas de regresión:
a) “Recta de regresión de Y sobre X” ó “Y respecto de X”:
S
y y XY ·(x x)
S2X
Se usa para hallar y cuando se conoce x.
b) “Recta de regresión de X sobre Y” ó “X respecto de Y”:
7
S
x x XY ·(y y )
S 2Y
Se usa para hallar x cuando se conoce y
EN EL EJEMPLO DE LAS CALIFICACIONES, la recta de regresión de Y sobre X sería:
3,62
y 5,75 ·(x 5,5) y = 0,69x + 1,95
5,24
Si un alumno saca un 1 en Matemáticas ¿cuál será la calificación esperada en Lengua?
y = 0,69 + 1,95 = 2,64 3
Se podría hallar la recta de regresión de X sobre Y y después calcular la calificación esperada en
Matemáticas para un alumno que ha obtenido un 4 en Lengua.
CON LA TABLA DE DOBLE ENTRADA QUE PUSIMOS AL PRINCIPIO DEL TEMA, no
tiene interés hallar rectas de regresión pues el coeficiente r = 0,34 es demasiado pequeño.
Pondremos en su lugar otro EJEMPLO: Las puntuaciones obtenidas por mismo grupo de alumnos
en dos test que miden la habilidad verbal X y el razonamiento abstracto Y fueron:
Y 20 30 40 50
[25,35) 6 4 0 0
[35,45) 3 6 1 0
[45,55) 0 2 5 3
[55,65] 0 1 2 7
a) Calcula el coeficiente de correlación lineal e interpreta su valor.
b) Si y = 70, ¿cuál es el valor esperado de x?
( Solución: 1º se calculan las marcas de clase xi y las distribuciones marginales de X y de Y sobre la
misma tabla anterior.
2º) Media de X = 34,75 SX=10,95 Media de Y = 45 SY= 11,18
x ·yi j ·f ij =66.500; SXY=98,75; r = 0,8066; x = 0,79y-0,8; y = 54,4 ).
PROBLEMAS DE ESTE TEMA.
8
1) La información estadística obtenida de una muestra de tamaño 10 sobre la relación existente
entre la inversión realizada y el rendimiento obtenido en miles de euros, para explotaciones
agropecuarias, se muestra en el siguiente cuadro:
INVERSIÓN 11 14 16 15 16 18 20 21 14 20
RENDIMIENTO 2 3 5 6 5 3 7 10 6 10
a) Calcula el coeficiente de correlación lineal r e interprétalo (= no se necesita la nube de puntos)
b) Encuentra la recta de regresión de y sobre X
c) Calcula la previsión de inversión que se obtendrá con un rendimiento de 12.500 €.
( Solución:
Media de X = 16,5 SX= 3,04 S2X=9,25
Media de Y = 5,7 SY= 2,60 S2Y= 6,81
r = 0,778 y = 0,66x-5,19 x = 0,9y+11,37; Previsión x = 22.620 € )
2) La temperatura media anual y la latitud de diferentes capitales viene dada por la siguiente
tabla:
CAPITAL TEMPERATURA( ºC) LATITUD (º)
Madrid 19 40 Estudia si
París 15 49 existe una
Roma 22 42 correlación
Londres 14 53 lineal fuerte
Lisboa 19 39 entre estas
Bruselas 14 52 variables y
en caso
Berlín 13 52
afirmativo,
Atenas 24 37
calcula la
temperatura media anual esperada para Nerja (36º de latitud).
( Solución:
Media de X = 17,5ºC SX=3,84 ºC S2X=14,74
Media de Y = 45,5º SY=6,22º S2Y= 38,75
x ·y ·f
i i i =6.194 SXY=-22 r = -0,92 Dependencia lineal negativa y fuerte
x=-0,56y + 42,98 ; Valor esperado de x = 22,82ºC )
3) El número de horas dedicadas por 5 estudiantes para preparar un examen y la calificación
obtenida en él se muestran en la siguiente tabla:
Nº de horas X 8 9 12 16 19
Calificaciones Y 6 5 7 8 9
9
a) Calcula el coeficiente de correlación lineal e interprétalo
b) Encuentra la recta de regresión de X sobre Y
c) ¿Qué número de horas se estima que un estudiante de estos debería haber estudiado para
obtener un 10?
(Solución:
Media de X = 12,8 SX = 4,16 S2X=17,36
Media de Y = 7 SY = 1,41 S2Y= 2
x ·y = 476 SXY= 5,6 r = 0,95
x = 2,8y-6,8 Valor esperado de x = 21,2 horas )
4) Pag 223 nº2: “La temperatura media anual en grados centígrados de varias ciudades, y el gasto
medio, también anual, en calefacción por habitante, en euros, fue:
TEMPERATURA X 10 11 14 15 17 23
GASTO Y 150 115 78 54 42 18
a) Halla el coeficiente de correlación lineal e interpreta su valor
b) Calcula el gasto estimado correspondiente a una temperatura media anual de 20ºC
(Solución:
Media de X = 15 SX = 4,28 S2X= 18,33
Media de Y = 76,16 Sy = 44,73 S2Y= 2.000,81
x ·y
i i =5.795 SXY= -176,57 r = -0,92
y = -9,63x+220,61 Para x = 20ºC, el valor estimado de y = 28,01 € ).
5) El volumen de importaciones y producción, expresados en millones de euros, de una gran
empresa durante los cuatro últimos años viene dado por la siguiente tabla:
IMPORTAC. 1 2 3 4
PRODUCCIÓN 2 4 7 9 a)
Calcula el coeficiente de correlación lineal e interprétalo.
b) Halla la ecuación de la recta de regresión de la Producción sobre la Importación.
10
c) Calcula la producción esperada cuando el volumen de importaciones es de 6 millones de euros
( Solución:
Media de X = 2,5 SX=1,12 S2X= 1,25
Media de Y = 5,5 SY= 2,69 S2Y= 7,25
x ·yi i 67 r = 0,99
y = 2,4x-05 Para x = 6 millones , el valor esperado de y = 13,9 millones de euros. )
6) Dada la siguiente tabla de una variable estadística bidimensional:
X
Y
1 2 3 4 Calcula:
[0 - 2) 5 0 0 0 a) El coeficiente de correlación lineal. Interprétalo
[2 - 4) 0 3 0 0 b) Para Y= 3´5, ¿cual es el valor esperado de X?
[4 - 6) 0 1 4 0
[6 - 8] 0 0 0 1
( Solución:
Media de X = 3,2857 SX=1,9794
Media de Y = 2,0714 SY= 0,9609
x ·y i j ·f ij =121 r = 0,97
x = 2y-0,86 Para y = 3,5 el valor esperado de x = 6,14 )