Estadística Descriptiva e Inferencial
Estadística Descriptiva e Inferencial
ESTADÍ
STICA DESCRIPTIVA
E INFERENCIAL
0000 61010
77
010D
10080
1111
514 1
o 101 101010101010
CA1110100000100
1901.0 10100111
This One
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL
1995
VARGAS SABADÍAS , Antonio
Estadística descriptiva e inferencial / Antonio Vargas Sabadías . - [Cuen-
ca] Servicio de Publicaciones de la Universidad de Castilla-La Mancha,
1995 .
576 p. ; 22 cm. - (Ciencia y técnica ; 8)
I.S.B.N .: 84-88255-87-X
1. Estadística matemática. I. Universidad de Castilla-La Mancha, ed. II.
Título.
519.2
222
INTRODUCCIÓN . 23
I.1 . Sumas indicadas 23
1.2 . Sumas dobles 27
1. DISTRIBUCIONES Y GRÁFICAS . 33
1.1 . Concepto y términos 33
1.2. Población, muestra e individuo 33
1.3 . Caracteres y modalidades 34
1.4. Variable estadística ............ 35
1.5 . Distribución de frecuencias ............... 35
1.5.1 . Frecuencia absoluta y relativa .......... 36
1.5.2. Propiedades de las frecuencias 36
1.5.3 . Frecuencias acumuladas 36
1.6. Parámetros y estadísticos 37
1.7. Tablas estadísticas ......... 37
1.7.1 . Tabla de una variable estadística discreta 38
1.7.2 . Agrupación en clases ......... 39
1.7.3 . Tabla de una variable estadística continua ........ 43
1.8 . Representaciones gráficas ......... 44
1.8.1 . Representaciones de caracteres cualitativos 44
1.8.2. Representaciones de caracteres cuantitativos 49
[Link] . Diagramas diferenciales ... 49
[Link]. Diagramas integrales para variable discreta 53
[Link]. Diagramas integrales para variable continua 54
1.9. Simetría y sesgo 56
1.10 . Modalidad 56
1.11 . Apuntamiento 57
12
2. CARACTERÍSTICAS DE POSICIÓN. 63
2.1 . Características de una distribución de frecuencias 63
2.2. Características de tendencia central 64
2.3 . Media aritmética .......... 65
2.3.1 . Definición en el caso discreto .......... 65
2.3.2. Propiedades de la media aritmética. 66
2.3.3 . Definición en el caso continuo ........ 68
2.3.4 . Ventajas e inconvenientes de la media aritmética 70
2.4. Otros valores medios ......... 70
2.4.1 . Media geométrica 70
2.4.2 . Media cuadrática .......... 72
2.4.3 . Media armónica ........... 73
2.4.4 . Relación entre las distintas medias . 74
2.5 . Percentiles. Mediana ........ 75
2.5.1 . Definiciones ..... 75
2.5.2 . Cálculo de la mediana ...... 76
[Link] . Comportamiento de la mediana 79
2.5.3 . Problema inverso 80
2.6. Cuartiles, quintiles y deciles ............. 81
2.7. Moda ............ 81
2.7.1 . Definición ................ 81
2.7.2 . Cálculo de la moda 82
2.8. Ejercicios propuestos 84
BIBLIOGRAFÍA . 561
La Matemática, en su afán por definir los conceptos con precisión y expresar los
razonamientos con claridad, emplea un lenguaje simbólico, que resulta difícil de enten-
der si no se conoce bien el significado de los símbolos y signos de que se sirve.
Uno de los símbolos, que aparecerá profusamente a lo largo de las páginas de este
libro, es el símbolo de la suma indicada o « sumatorio» , que representamos con la letra
griega (sigma mayúscula), y que emplearemos para expresar la suma de diversos
conjuntos de números.
Ejemplo I.1
La variable con índice A, define así el conjunto de los ingresos por ventas que ha
realizado el dependiente .
Para expresar la suma de todos los ingresos , se procede de acuerdo con el criterio
que establece la siguiente definición:
24
(1)
ΣΑ
i=1
y se debe leer como «la suma de» todos los valores que toma la variable A,, empezan-
do por el primero, A, (A, cuando i= 1 ) y terminando por el último, An (A, cuando i=n):
El índice inferior (i= 1 ) especifica que la suma empieza en A,, y el índice superior
(i=n), colocado sobre la Σ, señala el último de los sumandos.
La letra i, que hemos empleado para designar un índice genérico, es una variable
<<muda» , que puede reemplazarse por otra letra que no haya sido utilizada. Así:
n n n
ΣΑΣΑ = ΣΑ
i=1 j=1 k=1
La suma de todos los ingresos por ventas del dependiente de los grandes almace-
nes se expresa como:
ΣΑ
i=1
(2)
ΣΑ
i=p
indica la suma A +A +...+A
P p+ 1 q
ΣΑ
M
i=2
25
representa la suma de los ingresos por los artículos vendidos en segundo, tercero y
cuarto lugar:
La especificación del primero y del último de los índices es importante. Sin embar-
go, en muchas ocasiones no se especifican. Cuando suceda esto, debe entenderse
que la suma se extiende a todos los elementos del conjunto que define la variable A..
Propiedades
I. Σ(x + y) = Σx + Σε [3]
Esta propiedad nos dice que, si cada sumando de una suma indicada se descom-
pone en dos, el valor de ésta es el mismo que se obtiene de sumar los resultados de
las dos sumas parciales .
Ejemplo 1.2
Supongamos que el dependiente de los grandes almacenes del ejemplo I.1 cobra
por separado el importe neto del producto y el impuesto (IVA) que lo grava. Los
ingresos anteriores vendrían ahora desglosados en la forma:
II. ΣΧ - Υ) - ΣΧ - ΣΥ (4)
Esta propiedad nos indica que, para hallar el precio neto, es igual sumar los pre-
cios de venta de los artículos por un lado y los impuestos por otro y restar, que sumar
las diferencias entre el precio de venta y el IVA de cada uno de los artículos:
y
5
Σ (A -Y ) = 20179 + 13839 + 7366 + 22500 + 28929 = 92813
i=1
Así, por ejemplo, si todos los precios se multiplican por 2, el precio total será
también el doble. Esta propiedad se conoce como «distributiva» , y es la que permite
sacar factor común:
Σ7 = 7 + 7+ 7 + 7 +7 = 5x7 = 35
i=1
V. Si k es una constante
N N
Σ (A, -k) = ΣA , -Nk (8)
i=1 i=1
27
Nos interesa ahora resaltar dos reglas que no cumple la suma indicada:
1) ΣXY + (ΣΧ)(ΣΥ)
2) Σx + (Σx)
Ejemplo 1.3
(Σx)(Σy) = (2 + 6 + 7) × ( 3 + 5 + 4 ) = 15 × 12 = 180
Asimismo Ex = 2 +6 + 7 = 4 + 36 +49 = 89
mientras que
(Ex ) = (2 + 6 + 7 ) = 15 = 225
Son también numerosas las ocasiones en que nos encontramos con variables con
dos índices . Vamos a servirnos de un ejemplo sencillo para que el lector no habituado
a tratar con matrices descubra la necesidad y el modo de trabajar.
Ejemplo 1.4
Años de antigüedad
1 2 3
1234
Artículos A₁ A 12 A13
A2 A2
1 2 A23
A31 A32 A33
4 A41 A42 A43
A,,
11 representa el precio del artículo 1 con 1 año de antigüedad, A,,12 representa el
precio del artículo 1 con 2 años de antigüedad, ...
Si sustituimos los símbolos de las variables (las A. ) por los valores que represen-
tan, quedará la matriz numérica:
1 2 3
1 50 60 35
2 25 30 10
3 16 10 14
4 12 8 24
que, realmente, es un cuadro de números ordenados por filas y por columnas. Los
elementos de la primera fila son los precios del artículo 1 según el año de antigüedad:
50, 60, 35 ; los elementos de la primera columna son los precios de cada artículo con un
año de antigüedad,...
Cuando el número de filas(m) y de columnas(n) es grande , una manera de repre-
sentar la suma de todos los elementos de la matriz es mediante la expresión :
m n
(9)
ΣΣΑ
i=1 j=1
4 3 4 3 4 4 4 4
i3 = ΣA + ΣA12 + ΣA13 =
ΣΣA¸ = Σ [Aµ = Σ(A + A₁₂ + Ais)
i=1 j=1 i=1 j=1 i=1 i=1 i=1 i=1
= (A1 +A2 + A31 + A41 ) + (A12 + A22 + A32 + A42) + (A13 + A23 + A33 + A43) =
= (50 +25 +16 + 12) + (60 + 30 +10 +8) + (35 + 10 + 14 + 24) = 103 +108 +33 = 294
= (A11 + A12 + A13) + (A21 + A22 + A23) + (A31 + A32 + A33) + (A41 + A42 + A43) =
=
= (50 + 60 +35) + (25 +30 +10) + (16 + 10 + 14) + (12 + 8 + 24) = 145 +65 +40 +44 = 294
Hemos comprobado, por tanto, que el resultado es el mismo cualquiera que sea el
orden que sigamos para sumar, lo que podemos expresar mediante la fórmula:
m n m n n m
ΣΣΑ = Σ Σ Α = Σ ΣΑ (10)
i=1 j=1 i=1 j= 1 j=1 i=1
Esta propiedad resulta evidente, ya que la constante se puede sacar factor común
en las sumas simples , según hemos visto en (5) . También resultan fáciles de compro-
bar las siguientes :
Ejemplo 1.5
4 3 4 3
ΣΣ3: 41 - Σ3 Σ4 = (3 + 32 +33 +34 )(4 + 42 +43 ) = 120.84 = 10080
i=1 j=1 i=1 j=1
En ocasiones , interesa obtener sumas parciales de una suma doble, como puede
ser, en el ejemplo I.4 , la suma de los precios de todos los artículos con un año de
antigüedad (que se corresponde con la suma de los elementos de la primera columna
de la tabla):
4
ΣA₁ = A₁ +A₂21 +A₁₁
31 +A₁₁
41 = 103
i=1
o la suma de los precios de los artículos 1 y 2 (suma de las dos primeras columnas) :
ESTADÍSTICA DESCRIPTIVA
CAPÍTULO 1
DISTRIBUCIONES Y GRÁFICAS
Llamamos población o universo al conjunto de los elementos que van a ser obser-
34
Se llama carácter de un individuo a cada una de las facetas bajo las cuales éste
puede ser analizado. El carácter es, por tanto, una propiedad que permite clasificar a
los individuos de la población .
Así, por ejemplo, los estudiantes de una universidad pueden ser analizados , entre
otros, según los siguientes caracteres: sexo, edad, cociente intelectual, calificaciones
en una determinada asignatura, estatura, peso,...
Un mismo carácter puede presentar distintas situaciones, a las que llamaremos
modalidades de dicho carácter. Así, el carácter sexo presenta dos modalidades: sexo
masculino y sexo femenino .
Aquellos caracteres que sólo admiten dos modalidades, como el sexo , se llaman
dicotómicos.
A) Propiedad fundamental :
es decir, cada uno de los individuos de la población debe tener una y sólo una de las
modalidades del carácter.
Para un mismo carácter, el número de modalidades que pueden ser analizadas es
variable. Así, el estado matrimonial de una persona puede considerarse bajo dos
modalidades: casado o soltero; tres modalidades : casado, soltero, viudo ; cuatro mo-
dalidades: casado, soltero, viudo , divorciado; cinco modalidades : casado, soltero,
viudo, divorciado, separado; ...
35
B) Tipos de caracteres :
P₁ = 100f (2)
Como las modalidades C,, C2, ..., C. del carácter C son incompatibles y exhausti-
vas, se verifica:
1. La suma de las frecuencias absolutas es igual al número de individuos de la
población:
Ση = N (3)
i=1
(4)
Σf = 1
i=1
k k
-Z
1
IM
En efecto: Σε = Ση = -N = 1
Σ n₁ = —
i=1 i= 1 N N i=1 N
i
(5)
N₁ = Σnj
j=1
IM-
N₁
Fi = (6)
N = Σfj
j=1
Hecho el recuento de los individuos que pertenecen a cada modalidad del carácter
analizado , se recogen los datos ordenados en una tabla.
38
C n f 100xf
C₂ n2 f₂ 100xf2
n 100xf
Ck nk 100xf
Total N 1 100%
Ejemplo 1.1
Χ n₁ 100xf
X₂ n₂ 2 100xf₂
n f 100xf
X nk 100xf
Total N 1 100%
Ejemplo 1.2
X n N f F P%
0 7 0.14 14
7 0,14
1 13 0,26 26
20 0,40
2 15 0,30 30
35 0,70
3 8 0.16 16
43 0,86
4 ó más 7 0,14 14
50 1,00
Total 50 1,00 100%
40
Para facilitar el estudio de los posibles valores de una variable estadística conti-
nua, éstos se agrupan en clases o intervalos de clase , que constituyen las modalida-
des del carácter.
Generalmente se toman los intervalos solapados de forma que cubran todos los
posibles valores de la variable; son intervalos semiabiertos (cerrados por la izquierda
y abiertos por la derecha).
Representaremos la i-ésima clase por
[e,i-1
. ,, e ) (7)
donde e₁, es el extremo inferior del intervalo y e, es el extremo superior, que no forma
parte del mismo.
La amplitud de clase es la distancia entre sus extremos. La amplitud de la clase i-ésima
es, por tanto:
a=e-ei-1 (8)
Las clases pueden tener una amplitud constante o variable, aunque es aconsejable
elegir los intervalos con amplitud constante.
Así, las estaturas de una muestra de estudiantes pueden agruparse en clases de la
siguiente forma:
de 1,55 m. a menos de 1,65 m.
de 1,65 m. a menos de 1,75 m.
de 1,75 m. a menos de 1,85 m.
más de 1,85 m.
2) Siempre que sea posible, se debe procurar que todos los intervalos tengan la
misma amplitud. Cuando se elige previamente la amplitud de clase, se toma, como
valor de la misma, la raíz cuadrada del número de observaciones N:
a=√N (12)
Cuando los datos están agrupados en clases , se considera que todos los indivi-
duos pertenecientes a una clase tienen el valor que señala la marca de clase . Por este
motivo, la utilización de intervalos de clase, si bien supone una mayor comodidad en
los cálculos, también conlleva una pérdida de información , sobre todo si la distribu-
ción de los datos en el intervalo no es homogénea.
Ejemplo 1.3
22 40 45 36 38 24 32 41 50 41 29 44 33 38 28
29 45 34 26 28 28 32 47 50 41 36 31 24 30 36
[22,27) 4
[27,32) 6
[32,37) 7
[37,42) 6
34
[42,47)
[47,52)
42
Ejemplo 1.4
Las calificaciones obtenidas por los alumnos de un colegio han sido reflejadas en
la siguiente tabla:
Intervalos Frecuencias
1-10 30
11-20 15
21-30 63
31-40 84
41-50 50
51-60 46
61-70 32
71-80 14
Total 364
Es evidente que no están recogidas calificaciones no enteras , como puede ser una
puntuación de 50'5 puntos , y, sin embargo, en alguna situación podría ser interesante
disponer de datos como éste .
Por ello, es conveniente elegir nuevos intervalos que contengan estos posibles
valores , manteniendo las frecuencias.
En este ejemplo, basta con tomar como extremos a los puntos medios entre los
extremos superior e inferior de cada dos intervalos contiguos, modificando también
los intervalos de modo que todos ellos tengan la misma amplitud .
La tabla de frecuencias para el ejemplo 1.4 . quedaría así:
Intervalos Frecuencias
0'5-10'5 30
10'5-20'5 15
20'5-30'5 63
30'5-40'5 84
40'5-50'5 50
50'5-60'5 46
60'5-70'5 32
+ ཙྪཱ
70'5-80'5 14
Total 364
43
Ejemplo 1.5
183 182 165 179 174 171 179 182 193 188 164 186 170 173 175 177 168
169 191 176 172 181 168 175 160 171 166 164 171 176 181 188 183 188
163 181 187 191 172 176 181 174 176 184 171 169 169 179 178 162 178
177 158 161 179 162 174 167 180 172 185 188 174 177 171 182 163 172
187 168 156 161 168 183 172 186 179 192 157 168 178 173 183 157 166
195 173 178 188 164 163 170 164 168 159 169 187 184 166 169
Extremos Marcas Fre. ab. Fre. [Link]. Fre. rel. [Link]. Porcentajes
I. Diagrama de rectángulos
Ejemplo 1.6
Fr. absoluta 20 78 15 26 7 4
ND
80 R
70
60 D
50 V
40
30 C
20
S
10
0 10
R ND 0 20 30 50 60 70 80
S
ND
III . Pictograma
En este tipo de gráfico, cada modalidad del carácter se representa por una figura
no geométrica, como puede ser un automóvil, un edificio, una herramienta de traba-
jo,... de tamaño proporcional a su frecuencia.
Para evitar confusiones, según se tomen las frecuencias proporcionales a la longi-
tud, a la superficie o al volumen de la figura, debe tenerse en cuenta que, si la razón
de las longitudes es de 1/r, la razón de las superficies es de 1/r2 y la de los volúmenes
de 1/r³ . Un procedimiento alternativo consiste en tomar un dibujo como modelo y
repetirlo un número de veces proporcional a la frecuencia de la modalidad correspon-
diente .
Ejemplo 1.7
Ciudad A B C D
AB C D
47
Representación alternativa:
A:
B:
C:
D:
IV. Perfiles
Los perfiles pueden adoptar forma radial, cuando las modalidades del carácter se
representan sobre radios que parten de un mismo punto, u ortogonal, cuando se
representan sobre unos ejes cartesianos .
La utilidad del perfil en el campo educativo se justifica por el hecho de captar, de
una vez, diversos rasgos o características del alumno.
Según los rasgos que se pretenden ilustrar, hay una gran variedad; hay perfiles
sobre intereses, aptitudes, rendimiento, ... Los perfiles sobre rendimiento académico
reciben el nombre de nosogramas.
Los perfiles, realmente no son gráficos que correspondan a distribuciones de un
carácter. Sin embargo, los hemos incluido aquí, porque cabe la interpretación de las
calificaciones como valor de la frecuencia de cada asignatura.
A) Perfil ortogonal
Dado un sistema de ejes cartesianos , sobre el eje de abscisas se sitúan las diver-
sas modalidades del carácter, como pueden ser las diversas asignaturas que cursa un
alumno: Matemáticas , Física, Química, Dibujo y Biología.
Sobre cada asignatura se marcan con un punto los valores correspondientes a
cada calificación. Uniendo los distintos puntos, se obtiene una línea quebrada, que
constituye el perfil ortogonal. Se suele completar la representación trazando alguna
paralela al eje de abscisas para resaltar un determinado aspecto .
Ejemplo 1.8
Asignaturas Calificaciones 91
Matemáticas 6
5879
Física
Química
Dibujo
Biología
Figura 1.4. Perfil ortogonal.
B) Perfil radial
Para construir el perfil radial, se fija un punto del plano como origen.
M A partir de dicho punto se trazan tantos radios como
asignaturas, formando ángulos de la misma amplitud.
B
Sobre cada radio se toman segmentos proporciona-
les a las calificaciones respectivas. La unión de los pun-
tos extremos de los segmentos determina un polígono,
que constituye el perfil radial.
La figura 1.5 muestra el perfil radial correspondiente
al ejemplo 1.8.
VI. Cartograma
0,5
0
0 1 2 3 4 ó más
II . Histograma
Ni
bi = (15)
ai
Se conoce este valor como densidad de frecuencia del intervalo [e,,,e ) . El área del
rectángulo correspondiente a la clase i-ésima es, por lo tanto:
Ni (16)
Si = --ai = ni
ai
Ejemplo 1.9
Un grupo de 200 alumnos han sido calificados de 0 a 100 por un profesor, que
facilita los resultados agrupados en intervalos de diferente amplitud , según muestra la
siguiente tabla:
4
Calificac. Núm. alumnos
0-20 22
20-30 26
30-40 31
40-50 38
50-60 30
60-70 25
0 20 30 40 50 60 70 80 100
70-80 12
80-100 16
Figura 1.8 . Histograma correspondiente al ejemplo 1.9.
A) Variable discreta
En este caso, se trazan unos ejes cartesianos ; sobre el eje de abscisas se sitúan
los valores de la variable estadística X, y sobre el eje de ordenadas se llevan los
valores de las frecuencias tal como se hizo para construir el diagrama de barras.
En lugar de trazar la barras
completas, ahora se señalan los 12
puntos superiores de las mis-
10
mas; uniéndolos mediante seg-
mentos rectilíneos , se consigue 8 M
el polígono de frecuencias.
6
Para que la gráfica no quede
colgada, se supone que hay dos
valores más de la variable con fre-
cuencia cero, uno anterior al pri- 2
mero de sus extremos y otro pos-
0
terior al último. De esta forma, se 1 2 3 4 5 6 7 8 9 10
prolonga el polígono en dos seg- Figura 1.9. Calificaciones en Física y Matemáticas.
mentos hasta que sus extremos
toquen el eje de abscisas .
Para hacer comparaciones, a veces sobre un mismo gráfico se representan los
polígonos de frecuencias correspondientes a dos o más distribuciones.
Ejemplo 1.10
Calificaciones 2 3 4 5 6 7 8 9
Matemáticas 3 4 6 9 10 4 3 1
Física 4 5 9 6 6 6 2 2
B) Variable continua
pequeñas las amplitudes de los intervalos de clase , se aproxima a una curva de una
distribución teórica, llamada «curva de frecuencias» .
La curva de frecuencias es una especie de polígono de frecuencias simples suavi-
zado, que proporciona una representación aproximada de la distribución de la pobla-
ción correspondiente.
F: R → [0,1]
x → F(x)
Esta curva es conocida también como curva de distribución, y la función F como
función de distribución. La figura 1.12 recoge el diagrama de frecuencias acumuladas
del ejemplo 1.2.
54
Cuando la variable estadística es continua, una vez fijados los intervalos de clase
sobre el eje de abscisas, se llevan sobre el eje de ordenadas las frecuencias relativas
acumuladas o los porcentajes acumulados .
Al trazar el polígono de frecuencias para variable continua, se tomaban los valores
de las frecuencias sobre el punto medio de la base superior de los rectángulos del
histograma.
En cambio, para trazar la curva acumulativa de frecuencias relativas, se toman
sobre la ordenada correspondiente al límite superior de cada intervalo de clase, pues-
to que a cada extremo superior de los intervalos de clase se le asocia el tanto por
ciento de individuos de la población que quedan por debajo de dicho límite .
Trazando segmentos de paralelas al eje de abscisas a partir de cada punto hasta
llegar a la ordenada correspondiente al siguiente extremo de clase, y completando la
gráfica con dos semirrectas horizontales de modo análogo a como se procedió con
variables discretas, se obtendría el polígono de frecuencias acumuladas .
Sin embargo, en el caso continuo, no se suele utilizar el polígono de frecuencias
acumuladas, sino que se aproxima éste por una curva que se adapta a los puntos
obtenidos, sin que necesariamente tenga que tocar a todos.
55
Esta curva tiene forma de arco apuntado, por lo que también recibe el nombre de
ojiva.
Fijado un valor x, de la variable , es decir sobre el eje de abscisas , la ordenada
correspondiente en la ojiva señala el porcentaje de individuos de la población cuyo
carácter es menor o igual a x . Por ello, la ojiva puede ser utilizada para el cálculo
gráfico de los centiles, según veremos .
Ejemplo 1.11
Figura 1.15 . Curva simétrica. Figura 1.16. Curva sesgada hacia la derecha.
1.10. Modalidad
1.11 . Apuntamiento
Las medidas del grado de apuntamiento de una curva así como de su asimetría
serán objeto de estudio en el capítulo 3.
1.2. Los pesos (en Kgs . ) de los niños recién nacidos en una clínica maternal
durante el último año han sido :
27 36 85 144 98 56 32 32
58
1.3. Durante el mes de junio se han registrado las siguientes temperaturas máximas
cada día:
26 30 30 28 28 27 26 27 28 27 26 28 28 30 24 25 28 33 31 31 27 30 31 30 29 34 31 30 30 29
1.5 . Los obreros de una gran industria han sido clasificados por categorías labora-
les, dándose los siguientes resultados:
Especialistas 1250
Oficiales de 2ª 975
Oficiales de 1ª ............ 510
Técnicos de grado medio............ 35
Técnicos superiores 12
Altos cargos ....... 8
1.6. El número de viajeros (en miles de personas) durante los 6 primeros meses del
año por carretera y ferrocarril ha sido el siguiente:
Trigo (fanegas) 487 546 434 465 503 388 405 298 600 446
Cebada (fanegas) 458 730 895 978 802 630 754 790 878 910
1.9 . Un saltador de pértiga ha realizado, durante los 10 últimos días , las siguientes
marcas:
4'86 5'01 5'42 5'82 5'12 5'01 6'00 5'92 5'90 5'95
35 48 63 24 46 58 46 32 26 83 84 96 32 94 28 46 53 62 75 76 44 31 59 83 45 22 29
91 60 61 54 42 56 31 64 56 48 59 91 87 78 76 44 58 26 28 40 81 70 70 63 64 37 45
No Trabajadores 7 8 15 25 18 9 6
X 3 4 9 15 20
n 3 3 8 6 2
Puntuaciones Hasta 50 50-70 70-100 100-150 150-200 200-300 300-400 más de400
n 15 30 56 85 46 30 22 12
1.17. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en
una ciudad, han sido:
Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
1.18. La siguiente tabla recoge la vida media (en horas) de 500 lámparas:
N° lámparas 54 96 130 88 85 47
CARACTERÍSTICAS DE POSICIÓN
Las tablas de frecuencias y los gráficos que acompañan a los datos de una distri-
bución estadística no cabe la menor duda de que son métodos interesantes para
presentar un resumen de la misma, que puede resultar incluso vistoso y elegante. Sin
embargo, hemos definido, al principio, la Estadística Descriptiva como un método de
<<descripción numérica» . Nuestro interés se centra ahora en encontrar esos valores
numéricos o medidas que, por sí solos, describan la localización de datos de una
distribución .
Nos serviremos de un ejemplo ' sencillo que pone de manifiesto cómo estas medi-
das nacen espontáneamente. En una clase de Matemáticas, surge la necesidad de
medir la longitud del encerado, y, al no disponer de una unidad de medida, el profesor
propone que cada alumno anote en un papel la medida que estime a simple vista. Se
recogen las anotaciones y se disponen en una tabla:
2'00 5
2'10 6
2'20
2'30 12
2'40 11
2'50 6
2'60 4
2'70 5
2'80 1
2'90 3
Se trata ahora de decidir, ante estos datos, qué valor se debe tomar como medida
de la longitud de la pizarra. Un alumno sugiere como medida 2'30 m. , argumentando
que éste es el valor que más se da (la moda). Al profesor no le parece mal la elección,
pero la encuentra poco democrática, ya que sólo se tiene en cuenta la opinión de una
quinta parte de la clase .
Otro alumno insinúa que se tome 2'35 m.; lo argumenta diciendo que la mitad de la
clase ha dado una medida menor o igual que 2'30, y la otra mitad, una medida mayor
o igual que 2'40 (la mediana).
Tampoco el profesor queda satisfecho del todo porque no se valora en su justa
medida la opinión de cada uno de los alumnos. Así surge la idea de sopesar cada
1 El ejemplo está tomado de un trabajo del Profesor Pascual Ibarra, publicado en 1968 con
el título de «< Democracia y Estadística» .
65
1) Media aritmética para datos agrupados : Sea X una variable estadística discre-
ta que toma los valores x ,,X,,...,x, con frecuencias absolutas n,,n,,...,n,, respectivamen-
te. Se define la media aritmética como el valor:
Σx,n,
i=1 (1)
X
N N
n
También es: x = ...+ xxƒk , ya que
x, f₁ = x₁ ƒ₁ + x₂ƒ₂ + == fi
i=1 N
Ejemplo 2.1
Calificaciones 2 4 5 6 8 10
Número de alumnos 3 6 5 3 1 2
66
i=1 = (2)
x=
k k
Las edades de tres niños son de 5 , 7 y 9 años . La edad media de los tres es
7+ 8+ 9
x= =8
3
k k k
En efecto: Ź ( x; - x)n,; = Ex n₁ = Nx - Nx = 0
x; n; - Źx
i=1 i=1 i=1
La media, por tanto, compensa la suma de las desviaciones positivas y negativas .
Por ello, afirmamos que la media proporciona la localización de la distribución.
2. Si a todos los valores x,1 de una distribución se les suma (resta) un mismo
número c , la media de la nueva distribución, y =x +c, es igual a la media de las
X₁ más (menos) c.
k k
Σyn (x; ± c) n¡ 1 k k
i=1 i=1
y = Σx₁n; ± c Σn₁
Σ m ]==xx±c
±c
N N NLi=1 i=1
67
Despejando , se obtiene:
(4)
x= c + dz
Ejemplo 2.2
Nº de émbolos 10 15 19 21 14 13 8
Tomando como origen el valor c= 154 y como escala d=0,1 vamos a construir la
tabla con los nuevos datos:
68
Xi-C
Xi ni X -C Zi = Zi ni
||
d
3210123
153,7 10 -0,3 -3 -30
153,8 15 -0,2 -2 -30
153,9 19 -0,1 -1 -19
154,0 21 0 0
154,1 14 0,1 14
154,2 13 0,2 26
154,3 8 0,3 24
La media de la variable Z es
1 -15
え Σzin₁ = = -0,15
100 i=1 100
Ejemplo 2.3
174 190 183 180 168 163 194 182 168 171 171 188 191 167 167 185
185 189 169 172 175 161 173 170 184 190 166 162 191 174 179 189
189 168 161 165 174 166 167 186 178 178 173 173 181 176 172 180
173 177 182 178 170 175 174 182 181 162 177 180 185 160 161 195
186 160 187 164 171 188 158 186 169 165 159 187 156 159 176 191
69
Vamos a calcular la media, en primer lugar, agrupando todos los valores en clases.
El recorrido es R= 195-156=39 , que, aumentándolo en 1 , resulta 40. Se pueden elegir 7
clases de amplitud 6.
Aunque hoy es menos importante simplificar los cálculos, ya que disponemos de
excelentes calculadoras y paquetes informáticos que los evalúan directamente, vamos
a efectuar un cambio de origen y de escala, reflejando los datos en la tabla para
observar los distintos pasos.
Tomaremos como origen el valor de una de las marcas situadas hacia el centro, por
ejemplo, c= 175 , y, como unidad de escala, la distancia entre dos marcas de clase
consecutivas, d=6.
Calcularemos también la media para valores sin agrupar con el fin de corroborar
cómo efectivamente hay un pequeño sesgo con respecto al valor real de la media,
debido a la suposición tácita de que los datos se distribuyen de una manera homogé-
nea en sus correspondientes intervalos de clase.
178-184 181 13 6 13
184-190 187 14 12 28
190-196 193 7 18 21
Total 80 13
1 13
= Σzini = = 0'1625
80 i=1 80
14032
X = 175'4
80
Ejemplo 2.4
En la siguiente tabla, se han modificado los datos del ejemplo 2.1 , de modo que los
dos alumnos que tenían una calificación de 10 en Matemáticas, tienen ahora un 1 .
Calificaciones 2 4 5 6 8 1
Nº de alumnos 3 6 5 3 1 2
Valores medios de uso menos frecuente que la media aritmética son la media
geométrica, la media cuadrática y la media armónica.
A) Definición
Dada la variable estadística X, que toma los k valores x ,,X,, ...,X, con frecuencias
absolutas n,,n,,...,n , siendo n, +n,+...+n =N, se define la media geométrica como:
71
(5)
XG = .x nk
B) Cálculo
Por tratarse de un caso particular, se procede de igual modo para calcular la media
geométrica cuando los datos no se dan agrupados:
Σlog xi
i=1
Tomando antilogaritmos, queda: x = antilog
k
= antilog0,6623921 = 4,596
2 Por cumplir esta propiedad, la media geométrica es llamada por algunos autores <<media
logarítmica» .
72
Ejemplo 2.5
Asignaturas L M Q B F D
Calificaciones 7 8 7 6 5 9
B) Ventajas e inconvenientes
A) Definición
Dada la variable estadística X, que toma los k valores x ,, X ,,... ,x, con frecuencias
absolutas n,,n ,...,nk, siendo n,+n +...+n
+ = N, se define la media cuadrática como:
605
Su valor para el ejemplo 2.1 es: xo = = 30,25 = 5,5
V 20
73
Χρ (8)
k
B) Ventajas e inconvenientes
A) Definición
Dada la variable estadística X, que toma los k valores x ,,X,,...,x, con frecuencias
absolutas n₁,n,,...,n , siendo n₁+n₂+... +n₁=N, se define la media armónica como:
N N
XA = k N
ni n2 nk i (9)
+ +... +
X1 X2 Xk i= 1 Xi
20
Su valor para el ejemplo 2.1 es : X₁ = =€4,145
4,825
k k
ΧΑ = 1 1 k 1
1 (10)
+ +. +
XI X2 Xk i= 1 Xi
74
B) Ventajas e inconvenientes
Las cuatro medias, que acabamos de definir, están relacionadas entre sí por la
cadena de desigualdades :
XA ≤XG ≤X ≤ XQ (11)
Ejemplo 2.6
1) Media armónica:
10 10
XA = = 1,9887
1 1 5,02835
+. +
1,90 2,08
2) Media geométrica :
1 1
logXG = (log 1,90 +... + log 2,08) = ·(0,2787+ ... + 0,3180) = 0,2987
10 10
3) Media aritmética:
10 1
x= = -19,9 = 1,99
10 i=1 10
75
4) Media cuadrática:
2.5.1 . Definiciones
A) Percentil
B) Mediana
Tiene especial interés el percentil de rango 50, al que denominamos mediana , que
es, por tanto, « el valor de la variable estadística que divide a la población en dos
partes iguales, una vez ordenados los individuos por valor creciente del carácter» .
En el estudio de los percentiles se nos plantean dos cuestiones de interés :
I. Dado un percentil , calcular el valor correspondiente de la variable .
76
X = { 1, 2, 3, 4, 5, 6, 7, 8, 9)
X = { 2, 3, 5 , 7, 8, 9}
Se toma como valor mediano la media aritmética de los dos valores centrales:
5 +7
Ma = =6
2
Ejemplo 2.7
213563
10 20
18
6 17
14
9
3
77
X n N₁
1
20
10 2
18
8 1
17
6 3 0'5
14
5 ← N/2
4 3
2 3
0
0 1 2 3 4 5 6 7 8 9 10
Md =5
X n N.
20 1
10 2 18
8 1
17
6 7
10 << N/2 0'5
5 1
9
6 3
2 3
0
0 1 2 3 4 5 6 7 8 9 10
Figura 2.2. Tabla y curva de frecuencias acumuladas para el ejercicio 2.7. modificado.
78
Tenemos así el intervalo mediano [5,6) . Como valor de la mediana se suele tomar el
punto medio de dicho intervalo:
5 +6
Ma = = 5,5
2
3) La variable es continua
El proceso que se sigue en este caso, para encontrar el valor particular, cuya
frecuencia acumulada sea igual a N/2, es el siguiente:
A) Se divide el número de observaciones N entre 2 .
B) Se lleva el valor N/2 a la columna de frecuencias absolutas acumuladas (N.) .
Ahora puede suceder:
i) Que el valor N/2 se encuentre en la tabla, con lo que N/2 será la frecuencia
absoluta acumulada de un cierto intervalo de clase [e,,,e ), y la mediana será el extre-
mo superior del mismo.
ii) Que N/2 no se encuentre en la columna de las N. Entonces, este valor estará
comprendido entre los valores N. , y N,, que corresponden a las frecuencias absolutas
acumuladas de los intervalos [e,. ,e,.,) y [e,.,,e,) , respectivamente .
Como N/2>N ,, la mediana se encontrará en el intervalo [e,,,e,) , al que llamamos
<<intervalo mediano» . Por interpolación , se halla el incremento de intervalo que co-
rresponde al incremento de la frecuencia hasta llegar a N/2.
La mediana se obtiene de sumar este valor al extremo inferior, e,,,
i-1' del intervalo
mediano [e,,,e,).
i- 1'
El siguiente ejemplo clarifica el proceso:
Ejemplo 2.8
100 110 2 15
48
90 100 4
44 13 ↓
80-90 6 38
70 - 80 10
28
60 70 15 N/2=25
13
50 - 60 13
0 0 60 Me 70
N/2 - Ni-l
= i-1 +
Mde ai (12)
ni
El rango del percentil es igual al 79,6% , lo que nos indica que aproximadamente un
80% de los salarios son menores o iguales a 83.000 ptas . y sólo alrededor del 20% de
los salarios están por encima de las 83.000 ptas .
81
Q1,Q2 Q3
El segundo cuartil coincide con la mediana. El primer cuartil es el valor de la
variable que deja la cuarta parte de las observaciones por debajo de él y las tres
cuartas partes restantes por encima. El tercer cuartil, por tanto, es el valor de la
variable que deja las tres cuartas partes de las observaciones por debajo de él y la
cuarta parte de las mismas por encima.
Los «quintiles» son los valores de la variable que dividen a la población en 5
partes iguales. Son cuatro y se representan por K,, K2, K3, K.
Los «deciles » son los valores que corresponden a los percentiles múltiplos de 10.
Así, «el decil de orden h» es el valor de la variable que deja h/10 partes de las
observaciones por debajo de él y el resto por encima; se representa por D.
Para el cálculo de cualquiera de los cuantiles, se siguen los mismos criterios que
hemos expuesto para la determinación de la mediana.
2.7. Moda
2.7.1 . Definición
evidente que al número de dicha cara corresponde la mayor frecuencia, por lo que
este número es al que tenemos que apostar si deseamos ganar.
En este caso, el valor de la moda debe estar más cerca del intervalo contiguo al
intervalo modal de mayor frecuencia. La figura 2.5 permite encontrar el valor del incre-
mento que hay que añadir al valor del extremo de la izquierda, e,,, del intervalo modal,
para obtener un valor puntual de la
moda.
A B En efecto, los triángulos APC y
Р ↑ BPD son semejantes por tener los
h i -1 M N
ángulos iguales: los ángulos P por
Ꭰ ser opuestos por el vértice, y los
ດ
PN BD PN + MP BD + AC MP AC
= =
> = >
=
MP AC MP AC PN + MP BD + AC
AC -
de donde MP: (PN + MP) = a;
BD + AC
(n₁ — n;+1 ) + (n; − n¡ )
hi-1
Moei-1 + ai (13)
hi-l +hi+l
donde:
e , es el extremo inferior de la clase modal,
h , la diferencia de las frecuencias de la clase modal y de la clase inferior contigua,
hi+1, la diferencia de las frecuencias de la clase modal y de la clase superior contigua,
a la amplitud del intervalo modal.
donde ahora:
ei-l es el extremo inferior de la clase modal ,
k₁i-1, la diferencia de las frecuencias medias por unidad de amplitud de la clase modal
y de la clase inferior,
i+1 la diferencia de las frecuencias medias por unidad de amplitud de la clase
modal y de la clase superior,
a la amplitud del intervalo modal.
Ejemplo 2.9
1
M. = 172 + ·6 = 172 + 1′5 = 173'5
1+ 3
59 72 71 68 67 78 57 57 75 61 69 39 80 46 57 94 59 76 54 64 62
61 61 48 48 86 65 65 63 60 64 41 66 68 67 68 27 68 64 76 72 67
2.2. Un saltador de longitud ha conseguido hacer, durante los 10 últimos días, unas
marcas de:
7'68; 8'04; 7'86; 8'01 ; 7'82 ; 8'12; 8'01 ; 7'92; 8'00; 7'95.
2 3 4 5 26 14 3 6 1 5 5 2 3 3 3 2 4 6 6 5 1 2 3 3 1612
2.5. La producción de trigo en una cooperativa agrícola durante los 7 últimos años
viene recogida en la siguiente tabla:
85
2.7. Las temperaturas máximas y mínimas durante los 15 primeros días de julio, en una
ciudad, aparecen en la siguiente tabla:
Máximas 37 30 33 28 35 36 36 32 34 30 28 30 36 34 32
Mínimas 16 14 18 15 20 21 19 17 18 16 16 20 20 21 19
1) Calcular las medias de las temperaturas máximas y mínimas . 2) Hallar las tempe-
raturas medianas máximas y mínimas. 3) Encontrar las modas.
n 5 9 17 26 19 8 4
2.9. Las puntuaciones obtenidas por un grupo de universitarios en unas pruebas para
acceder a un puesto de trabajo en una industria fueron :
Puntuaciones 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 100-110
2.10. Según los indicadores económicos facilitados por la CEE, el PIB por habitante de
los diversos países de Europa en el año 1986 era:
2.11 . Un profesor facilita las notas de sus alumnos por medio de la siguiente tabla:
N° alumnos 9 13 21 11
2.12. Calcular las medias aritmética, geométrica, armónica y cuadrática para la distribu-
ción definida por la siguiente tabla, y comprobar la relación que existe entre ellas :
X 3 4 9 15 20
n₁ 3 3 8 6 2
2.13. Se ha aplicado un test de aptitudes a los empleados de una factoría. Las puntua-
ciones (X), agrupadas en clases, están recogidas en la siguiente tabla:
No Trabajadores 7 8 15 25 18 9 6
2.14. La oficina central de un banco ha contado la cantidad de dinero que retiraron los
clientes en un determinado día, agrupando las cantidades en clases de 20000 ptas .:
87
Nº de clientes 33 17 19 14 7
1 ) Hallar la cantidad media de dinero retirada por los clientes . 2) Calcular la media-
na, interpretando su resultado . 3 ) Hallar el rango del percentil correspondiente a 70000
ptas.
2.15. Las calificaciones obtenidas por 1300 alumnos en las pruebas de acceso a la
universidad, que se evaluaron de 0 a 100, han sido:
Puntuaciones (X) ( 17,25 ] (25,33 ] (33,41 ] (41,49 ] (49,57 ] ( 57,65] (65,73 ] (73,81 ] ( 81,89]
2.16. Hallar los cuartiles para los datos del ejercicio 2.9 e interpretar los resultados que
se obtengan.
2.17. Hallar la media, la mediana y la moda del ejercicio 1.17 del primer capítulo.
3 6 9 5 6 7
Son diversos los coeficientes que se definen para medir la dispersión , dependien-
do, en cada caso, de la característica a la que se hace referencia y de si se pretende o
no relacionar una distribución con otra. Atendiendo a este último criterio, se pueden
clasificar en medidas de dispersión absolutas y relativas.
3.2.1 . Recorrido
R'=R+ 1
R₁ = Q3 -Q₁ (2)
Ejemplo 3.1
10-20 3 3
20-30 6 9
30-40 15 24
40-50 20 44
50-60 21 65
60-70 9 74
70-80 6 80
El primer cuartil, Q,, deja por debajo el 25% de las puntuaciones, que son 20 ; por
tanto Q, cae dentro del intervalo 30-40 .
Hasta el límite inferior del intervalo, 30 , hay 9 puntuaciones; faltan 11 para llegar a
20. Entonces, interpolando , resulta que
si 15 valores corresponden a una amplitud 10 del intervalo,
11 valores corresponden a 11x10/15 =7'33 , luego
Q =30+7'33=37'33
El tercer cuartil , Q,, deja por debajo el 75% de las puntuaciones, que son 60; este
valor es mayor de 44 , por lo que Q, cae dentro del intervalo 50-60 .
92
Hay 44 puntuaciones hasta el límite inferior del intervalo , 50, y faltan 16 para llegar
a 60. Interpolando como antes, resulta
si 21 valores corresponden a una amplitud 10 del intervalo ,
16 valores corresponden a 16x10/21 = 7'62 , luego
Q =50+7'62=57'62
Ejemplo 3.2
Datos ordenados 12 14 16 18 20 21 23 25 29 34 40
X -X -10'9 -8'9 -6'9 -4'9 -2'9 -1'9 0'1 2'1 6'1 11'1 17'1
10'9 8'9 6'9 4'9 2'9 1'9 0'1 2'1 6'1 11'1 17'1 72'9
X -X
22
-9 -7 -5 -3 -1 0 4 8 33
13 19
X -M
9 7 5 3 1 0 4 8 13 19 71
X -M
Datos reordenados 0 1 2 3 4 5 7 8 9 13 19
Media=252/11 =22'9
Mediana= 21
Desviación media respecto de la mediana=71 /11 =6'45
Desviación media respecto de la media=72'9/11 =6'62
Desviación mediana=5
[Link] . Definiciones
2 1k
S =
s² - (6)
N
k
S = - x )² ni (7)
i= 1
Χ 1
Si y = = Sx (8)
d d²
II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la varianza de la nueva distribución no varía.
Si y = x + k⇒s} = sx
95
1
min (x = Σ (x; - x )
· ²ni (10)
i=1 N i=1
Esta última propiedad nos dice que, si efectuamos la media de los cuadrados de
las desviaciones de los valores de la variable con respecto a un valor C, el valor
mínimo se obtiene cuando C es igual a la media, lo que hace que la varianza sea la
medida cuadrática de dispersión óptima.
IV. Teorema de König: Dado un número real c, la media de los cuadrados de las
desviaciones respecto de c es igual a la varianza más el cuadrado de la distancia entre
la media y c :
k
(11)
Σ(x; − c )² ƒ¡ = Σ(x; − x)² ƒ¿ + (x − c)²
i=1 i=1
k
(xi = Σxifi x² (12)
i=1 i= 1
que nos indica que « la varianza es la diferencia entre la media de los cuadrados y
el cuadrado de la media».
Esta última fórmula (o su expresión con frecuencias absolutas) , que exponemos a
continuación, simplifica notablemente los cálculos :
k
Σχι
Σ(x;-x)
² Σx? i=1
i=1 i=1
Σx?
k i=1 k (14)
制
96
X 1
Si y = =
> = SX (15)
d d
II. Si a todos los valores de una distribución se les suma (o resta) una constante
k, la desviación típica de la nueva distribución no varía.
Si y = x + k⇒ Sy = Sx (16)
k
-2
Sx = (17)
N i=1
Ejemplo 3.3
Calificaciones 2 4 5 6 8 10
Nº de alumnos 3 6 5 3 1 2
101 94,95
X= = 5,05; s² = 4,7475; s = 2,1788
20 20
Xi ni Xi ni Xi
n
245
3 6 4 12
6 24 16 96
5 5 25 25 125
6 3 18 36 108
8 1 8 64 64
10 2 20 100 200
8$
(101)
= 605- = 4,7475; s = 2,1788
S
-260 20
máx (x )
A (18)
mín(xi)
R
R, == (19)
ןוא
CV = (20)
X
V = 100xCV (21)
D
Si X + 0 CMV = (22)
X
DM (23)
SiM₂ + 0 CVMMe =
\Me
Ejemplo 3.4
CV-8'65/39'11=0'221
y expresado en porcentajes :
V=0'221x100-22'1%
100
Matemáticas Física
35
15 3 2 12
25 5 3 9
35 8 5 12
40 14 6 5
448
45 16 7
47 5 9
49 3 10
Total 54 54
CV-2'80/5'27-0'531
y expresado en porcentajes:
V=0'531x100-53'1%
3.4. Momentos
Tanto la media como la varianza son casos particulares de un concepto más gene-
ral, el de momento. Los momentos de una distribución son unos valores específicos
que se deducen a partir de todos sus datos y que son característicos de cada distri-
bución, de modo que dos distribuciones son iguales si tienen iguales todos sus
momentos.
Se utilizan, en Estadística, dos tipos de momentos (potenciales y factoriales).
Definimos los momentos potenciales, que son los que vamos a necesitar:
Sea r un número entero positivo y c un número real cualquiera. Se llama momento
de orden r respecto de c al valor dado por la expresión:
k
(24)
m, (c) = [ (x, -c )
'ff₁; = N
= { (x,-c)n;
i=1 i=1
1 k
m, = (25)
Σ (x; - x )' n¡
N i=1
1 k
mo = ΙΣ x; −- xni
x )° n; = =
Σ(x
i= 1 NiŹn;
=1
= 1
1 k
mi = Σ (x; - x ) n ; = 0
N i=1
m₂ = Σ(x; - x )²n; = s²
N i=1
Cuando c=0 se tienen los momentos respecto al origen . Así, el momento de orden
r respecto al origen, que representaremos por a , es:
k
ar = Σxini (26)
Σ (x; -0)' n; =
NΣ
i=1 N i=1
1 k k
ao = Σχιni = Ση = 1
N i=1 N i=1
1 k
Σx₁n₁ = x
N i=1
k
а2 = Σxin
i=1
m₂ =a₂-a (27)
102
Esta fórmula relaciona el momento central de orden 2 con los momentos respecto
al origen. Es otra manera de expresar el teorema de König para C=0 .
k k k
= xi + -... + ( -1 ) ¹ a₁f; =
1-1
I
-2 ··· + ( − 1 ) ¹a₁
·a₂ −( 1 ) a₁₂- + ( 1 ) a²à¸²¯ ¯à¸²
Para valores particulares de r, se tienen las siguientes fórmulas que dan los prime-
ros momentos centrales en función de los momentos respecto al origen:
m3 = a3-3a2a₁ + 2a (29)
= 4a3a +6 aja₂ - 3a
m4a4- (30)
k
a1 = I r-1 I =
a² + ( 1 ) a ˜³¹ ( x − a ) + ... (Xi
103
r-2
am₁
- a² +( 1 )a'm ai m²
, + ( - ) a² m₂ + · · · + m,
a₂ = m2 + a} , a3 = m3 +3 m² a₁ + a} ‚ a4 = m4 +4 m² a) +6 m² a₁ + a (31)
Ejemplo 3.5
12 13 50 70 35 12 65 74 15 76 40 38 45 20 35
30 25 45 44 76 82 53 60 25 23 57 90 40 35 80
1365 77601
X = a1 = = 45'5 a₂ = = 2586'7
30 30
5034610 353818317
аз = 167820'33 a4 = 11793943'9
30 30
2) Momentos centrales :
m₁ = 0 m2 = 2586'7-45'52 = 516'45
m₂ = 167820′33 - 3x2586'7x45'5 + 2x45′5³ = 3128'7
m = 11793943'9-4x167820'33x44'5 + 6x45'52x2586'7-3x45'5' - 523501'76
1
m3 = NiŹ (x − x )' nj
l
será nulo, ya que se anularán entre sí los cubos de las diferencias positivas con los de
las negativas.
En cambio, si la distribución es asimétrica, el tercer momento central es tanto
mayor en valor absoluto cuanto más acentuada sea la asimetría de la curva. En efecto,
al elevar al cubo las diferencias, los valores extremos influyen más que los valores
próximos a la media en el cálculo de m¸.
Además, el signo de m, coincidirá con el sentido de la asimetría.
Por lo tanto, el momento central de orden 3 es un valor adecuado para obtener una
medida de la asimetría de una distribución. Con el fin de utilizar una magnitud sin
dimensión, se usa el coeficiente de asimetría de Fisher (Ap):
m3 (32)
AF
x - Mo
Ap (33)
S
Q₂ + Q - 2 Md
AB (34)
Q + Q - 2 Md (35)
AA
S
Si dos distribuciones tienen la misma varianza, aquella que tenga mayores frecuen-
106
cias en los valores próximos a la media, tendrá también mayores frecuencias en los
valores extremos y, en cambio , tendrá menores frecuencias en los valores intermedios.
El momento central de orden 4 será, por tanto, mayor en la distribución que tenga
un mayor apuntamiento. Esta es la razón por la que se usa, como medida del apunta-
miento de una distribución, el coeficiente del momento de aplastamiento:
m4
A4 = 4 (36)
S
84 =A4-3 (37)
Si g₁ >0, la curva es más apuntada que la normal de misma media y misma desvia-
ción típica (se dice leptocúrtica),
si g₁ =0, la curva es igual de apuntada que la normal (mesocúrtica) ,
si g <0, la curva es menos apuntada que la normal (platicúrtica) .
En la figura 3.2 tenemos una imagen de tres curvas con distinto apuntamiento.
Ejemplo 3.6
X - M. 45'5-42 3'5
Ар = = = 0'15
S √516'45 22725
El coeficiente de asimetría de Pearson es A =0'15>0, que indica un sesgo hacia la
derecha.
107
m3 31287 31287
AF = = 0'266
227253 11736'6
M4 5235327 5235327
A4 = 4 = 1'963
S 227254 266695'42
Ejemplo 3.7
Salarios N c.n P q
70-90 60 80 60 4800 4800 6 3'65
90-110 180 100 240 18000 22800 24 17'37
110-130 300 120 540 36000 58800 54 44'81
130-150 200 140 740 28000 86800 74 66'15
150-170 150 160 890 24000 110800 89 84'45
170-190 80 180 970 14400 125200 97 95'42
190-210 30 200 1000 6000 131200 100 100
q(x)=0'5x100%
q(x) es la proporción (en tanto por ciento) de la cantidad total de salarios ganada por
los empleados cuyo salario es menor que x .
La mediala es, por tanto, el salario tal que los empleados que ganan individualmen-
te menos que la mediala ganan globalmente tanto como los empleados cuyo salario
sobrepasa el salario medial.
La mediala cuando los datos están agrupados, se calcula, como la mediana, por
interpolación a partir de los extremos de la clase medial:
50-9₁-1
Mei-1 + (43)
9-9-1
donde :
es el límite inferior de la clase medial ,
9₁-1 es la cantidad acumulada (en porcentaje) inferior a la clase medial ,
q es la cantidad acumulada (en porcentaje) de la clase medial,
a es la amplitud de la clase medial.
En el ejemplo 3.7 , la mediala es M = 130+4'86=134'86 .
X₁ = 45 y s₁ = 12
X₂ = 6 y s₂ = 2
110
Al no ser iguales las unidades de medida utilizadas, las calificaciones de los can-
didatos no son comparables.
Debemos, por lo tanto, transformar las calificaciones, pasándolas a una escala
común de modo que las transformadas tengan la misma media y la misma desviación
típica.
Si a las calificaciones originales les restamos su media y dividimos por su desvia-
ción típica, se transforman ambas en otras de media cero y desviación típica 1.
Las calificaciones de nuestros dos candidatos son ahora:
X -X = 55-45 =10
Z₁ = 0,83
S1 12 12
X2-X2 7-6 - 1
Z2 = 0,5
$2 2 2
Como estas nuevas calificaciones tienen una distribución de media cero, observa-
mos que las dos están por encima de la media y asimismo, al ser la desviación típi-
ca 1 , comprobamos que la primera calificación está 0,83 desviaciones típicas por en-
cima de la media, en tanto que la segunda está solamente 0,5 desviaciones típicas por
encima de la media.
El proceso que acabamos de seguir, por el cual transformamos los valores x; de
una variable en otros z,, que se obtienen de restar a cada valor x, de la variable su
media y dividir el valor así obtenido por la desviación típica s :
X; -X (44)
Z₁ =
S
1
S₂ = s = 1.
S
queda por encima o por debajo de la media de su distribución , puesto que se sabe que
ésta es igual a cero.
Además, al ser la desviación típica igual a 1 , nos indica cuántas desviaciones
típicas está por encima o por debajo de la media.
Las puntuaciones tipificadas poseen la gran ventaja de que la distribución normal
N(0,1 ) está tabulada y es sencilla de manejar e interpretar.
Sin embargo, el investigador debe comunicar los resultados por él obtenidos y
hacerlos inteligibles a personas no versadas, como puede ser el caso del profesor que
quiere facilitar las calificaciones de sus alumnos a los padres de éstos. Seguramente
algún padre no entenderá que una calificación de cero indica que su hijo está en la
media del curso, ni sabrá interpretar una calificación negativa.
Por este motivo, se han diseñado otras calificaciones de interpretación más fácil.
3.8.1 . Puntuaciones T
T= 10x(-1)+50=-10+50-40
Las puntuaciones SAT siguen, por lo tanto, una distribución de media 500 y
desviación típica 100. Así, una puntuación Z= 1 se transforma en una puntuación
SAT= 100x1 +500-600, lo que significa que está por encima de la media (500) y a una
distancia de la misma de una desviación típica.
2i
a'r-zi (47)
a₁ =Σ. (5)
2 (2i + 1), ar-2
i=0
2i
m =Σ 2 -mr-21 (48)
Σ (5)
i=0 (2i + 1)!
c²
m"2 = m2 (49)
12
2
7 4 (50)
m"4 = m4- m₂ +
2 240
Ejemplo 3.8
N° estudiantes 3 10 14 13 10
A) Sin corrección :
m =49'8584 y m =5204'1006.
B) Corregidos:
m', 49'8584-3-46'8384;
m' -5204'1006-397'0912+37'8-4344'8094.
3.1 . En el ejercicio 2.6, teníamos las calificaciones obtenidas por 1300 alumnos en las
pruebas de acceso a la universidad, que se evaluaron de 0 a 100 puntos :
114
Puntuaciones 17-24 25-32 33-40 41-48 49-56 57-64 65-72 73-80 81-88 89-96
X 1 2 3 4 5 6 7 8 9
n 4 8 5 6 4 9 3 2 2
3.3. Los beneficios repartidos por una empresa aparecen reflejados en la siguiente
tabla:
Cantidad (millares) 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75
N° de empleados 8 9 18 25 28 12 14 6
Calificaciones 3'54 44'5 4'5-5 5-5'5 5'5-6 6-6'5 6'5-7 7-7'5 7'5-8 8-8'5 8'5-9 9-9'5
Na alumnos 6 10 31 38 63 70 41 20 15 8 6 5
X 3 4 5 6 7 8 9
n 3 5 9 8 6 6 4
115
3.6. Hallar los cuatro primeros momentos respecto al origen de la distribución del
ejercicio 2.11 del capítulo 2 .
3.7. La talla (en metros) de 200 reclutas está recogida en la siguiente tabla
n 8 20 60 52 30 20
3.8 . Las gratificaciones que han percibido los empleados de una compañía están refle-
jadas en la siguiente tabla, expresadas en miles de pesetas:
3.10 . Calcular los cuatro primeros momentos centrales de la distribución del ejercicio
2.2 del capítulo 2.
3.11 . Las puntuaciones obtenidas en un test de visión espacial realizado a dos grupos
de alumnos de tercero de Bachillerato en dos institutos de Toledo han sido:
Puntuaciones <20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 > 56
Instituto A 1 8 4 6 1 3 3 1 0
Instituto B 0 3 4 12 4 7 4 2 1
Ciudad A Ciudad B
Calificación Nº de alumnos Calificación Nº de alumnos
456789
4 16 3 7
5 8 4 20
6 22 5 8
6 6
78 10
8 12 10
9 7 8
Total 71 63
3.14 . Se ha medido la cantidad de litros de leche que da diariamente una vaca de una
determinada raza durante un período de 15 días , obteniéndose los siguientes resulta-
dos :
20'5 12'6 23'8 19'2 16'4 15 21 18'3 22 17'4 18 18'6 9 17'2 19'4
20 17 10 6 15 9 13 10 8 21 18 27 12 31 6
17 5 24 29 11 7 8 20 16 31 15 12 21 24 16
3.16. Se han realizado diez mediciones del diámetro de un émbolo , obteniéndose las
siguientes medidas :
3'97 3'87 3'99 4'05 4'06 4'01 4'01 3'89 3'97 3'99
117
Hallar los cuatro primeros momentos respecto al origen y los coeficientes de asi-
metría de Fisher y de Pearson.
Propiedad I La varianza de y = x; / d es
k k
Xi 1 k
- ni 2 Σ (x; - x)² n; 1
i=1 i=1 d d i=1
S = = =
N N N
1 k 1 k 1 k
= {
s} = =N 2=1( Y; - ỹ } n; = N =1 ( x; − k −x +k)' n =
; −
Ni-l ° n;= s;
Ź(x; - x )
k
Propiedad III: Llamemos P(c) = [(x; - c)}³ f₁ = N
= [ (x; -c)³n;
i=1 i=1
Desarrollando el cuadrado del último miembro , resulta:
k k k k k
1
P(c) = - Σ (x² -
- 2cx; + c² )n₁ =
+ Σx²n, −2cΣx, n, + c² Σn, = c² − 2cx + = Σx² n
N i=1 N i=1 i=1 i=1 N i=1
k k
Σxini Σxin
i=1
= c² -2cx+ x²- x²+ = (c -x)² + i=1
N N
k k k
= Σ(x; - x )² ƒ¡ + 2( x -− c) Σ( x ; - x ) ƒ¡ + (x - c)²Σƒ¡
i=1 i=1 i=1
k k k
Como ((x -x)
x -5).ƒ¡ = 0 y
y Σf, = 1, P(c) = Σ(x; - x )² ƒ; + ( x - c)²
i=1 i= 1 i=1
Hemos señalado que la media es una medida muy sensible a cambios en los
extremos . En general, siempre que un conjunto de datos estadísticos presente alguna
anomalía o haya motivos para creer que su distribución se aparta de la normal, se
deben utilizar características que ofrezcan una mayor resistencia.
Se dice que una característica es « resistente » cuando es afectada mínimamente
por la presencia de datos anómalos (alejados de los valores centrales) .
La mediana, M., es el índice de localización principal en las nuevas técnicas.
El valor d(M¸ ) señala la distancia de la mediana a los valores extremos, que, en
principio y según la definición establecida en el capítulo 2 , viene determinada por:
1
d(Md)== 2 ·(N + 1 ) (1)
Este índice recoge el 50% de los valores centrales de la distribución de los datos ,
eliminando así la influencia de valores extremos .
4.3.2. Trimedia
Q + Md 1
TRI = ;( Q₁ +2 Me + Q3 ) (3)
2 4
En el numerador aparece la suma de todos los datos comprendidos entre los dos
cuartiles, y en el denominador el número C de tales datos.
Al evaluar la centrimedia, no se deben de tener en cuenta los datos repetidos,
procurando, en todo caso, que el número de valores repetidos que se suprimen sea el
mismo a ambos lados.
Estudiando la posición relativa de la media aritmética y de la centrimedia, se
puede detectar la presencia o no de simetría. Se sabe que un valor de la centrimedia
superior a la media aritmética denota un sesgo hacia la izquierda.
Ejemplo 4.1
Se trata de evaluar los índices que acabamos de introducir para la serie de datos
que constituyen los pesos de 20 jóvenes:
123
39 42 36 34 43 42 45 52 54 37 44 72 33 49 56 62 63 44 44 47
33 34 36 37 39 42 42 43 44 44 44 45 47 49 52 54 56 62 63 72
R₁ = Q3 - Q₁ (5)
RI
SRI = (6)
1'349
R₁/2 = Q₁ -Q₁
CVc = (7)
Q Q₁ +Q₁
Q + Q3-2 Ma (8)
H =
2 Ma
Su interpretación es la siguiente :
Si H, 0, la distribución es simétrica,
Si H,>0, hay asimetría positiva,
Si H,<0, hay asimetría negativa.
125
El índice de Kelly hace uso del 80% de los datos . Se define como :
Este índice ha dado lugar a un nuevo índice adimensional, H₂, de mayor interés:
C10 + C90-2 Ma
H3 = (10)
2 Ma
Entre los diversos índices para el estudio del apuntamiento, el más interesante es
el índice K, que se define a partir de los centiles de orden 10 y 90 y de los cuartiles:
C90 -C10
K= (11)
1'9(Q;-Q₁)
3
Ejemplo 4.2
Veamos cuáles son los valores de los índices de forma correspondientes a los
datos del ejemplo 4.1:
1) Índice de simetría de Yule:
Q₁ + Q₁-
3 2 Ma 40.5 + 53-2x44
Hi = = 0'062
2 Ma 2x44
lo que indica un insignificante sesgo hacia la derecha.
2) Índice de simetría de Kelly:
C10 + C90-2 Ma 34 +63-2x44
H3 = = = 0'10
2 Md 2x44
que confirma el resultado anterior.
3) Índice de curtosis:
C90 -C10 63-34
K= = = 1'22
1′9(Q3 - Q₁ ) ¯¯ 1′9(53-40'5)
luego la curva es leptocúrtica.
126
Uno de los métodos más ingeniosos que surge del análisis exploratorio de Tukey
es el «diagrama de tronco y hojas » . Se trata de una mezcla entre histograma y tabla
de frecuencias, que permite hacer un análisis transversal detallado de los datos. Se
complementa con el gráfico en caja y extensión, cuyo diseño es de menor precisión.
El enfoque transversal permite , una vez ordenados los datos , seleccionar mejor
la representatividad de los intervalos de clase.
Para describirlo, nos vamos a servir del siguiente ejemplo:
Ejemplo 4.3
545 580 526 503 573 501 606 641 623 705 391 422 365 343 437
428 453 452 526 112 445 726 338 497 563 625 639 451 446 873
536 652 561 734 542 586 573 492 740 920 647 433 565 329 525
columna central ordenada desde el tronco más bajo al más alto, incluyendo todos los
valores intermedios, aunque no formen parte de ningún dato.
La rama que contiene a la mediana (índice fundamental en los métodos
exploratorios) , se resalta en uno de los márgenes de la tabla (la primera columna,
habitualmente) . Esta columna se denomina « columna de frecuencias », y, en ella se
sitúan las frecuencias acumuladas, pero sumándolas en un doble sentido, comenzan-
do por ambos extremos hasta llegar a la fila en que se encuentra la mediana, en cuyo
lugar se pone el valor de la frecuencia absoluta correspondiente a su rama entre
paréntesis.
De este modo, se consigue destacar la rama que divide a la población en dos
partes iguales.
La suma de la frecuencia de la rama que contiene a la mediana y de los dos
valores contiguos en la columna de frecuencias es igual al número N de datos , lo que
puede ser útil como elemento comprobatorio de que no se ha olvidado ningún valor.
La columna de frecuencias facilita el cálculo de la «profundidad» de cada dato.
La «profundidad» de un dato es su distancia al extremo más próximo.
El diagrama de tronco y hojas correspondiente a los datos del ejemplo 4.3 podría
ser entonces:
1 1
1
6 3 23469
17 4 2 2 3 3 4 4 5599
( 15) 5 0022234 4 6 6 6 7 7 8 8
13 6 0 2 2 2 4 4456
4 7 02
2 8 7
1 1* 1
1 10
1 2*
1 20
4 3* 432
6 30 96
12 4* 232443
17 40 55959
(8) 5* 42002342
20 50 8766876
13 6* 042234
7 60 5
6 7* 0234
2 70
127
2 8*
72
80
9* 2
Este último gráfico nos muestra mejor las lagunas que hay entre los troncos 1 y
3 y del 7* al 80. También se aprecia que el 6 es un valor poco frecuente y la
presencia de datos alejados en ambos extremos .
El número de ramas que se elige está en función de la forma de los propios datos ,
por lo que no se siguen las normas de la elección del número de clases que vimos en
el capitulo 1. Dentro de la flexibilidad que hay, uno de los criterios más extendido
consiste en seleccionar un máximo de L ramas, que en función del número N de
datos, es:
BAJOS | 112
4 3* 234
6 30 69
12 4* 223344
17 40 55599
(8) 5* 0 0 2 2 2 344
20 50 6 6 6778 8
13 6* 022344
7 60 5
6 7* 0234
2 70
22
8*
80 7
ALTOS | 920
Hasta ahora hemos venido trabajando con la mediana y los cuartiles . Sin embar-
go, los métodos exploratorios suelen utilizar otros índices , los «cuartos» y los
«octavos» ; incluso la mediana se determina siguiendo otro criterio cuando el número
de datos es par.
El criterio que se sigue para determinar la mediana es :
A) Si el número N de datos es par, se toma como valor de la mediana, M., el valor
de la variable que ocupa, en la serie de datos ordenada, el lugar 1/2 (N+ 1 ) - 1/2 , que
representamos por d(M ) ' :
d( Ma ) = {/ (N + 1) / (14)
d(Ma ) = 1/2 (N ++ 1)
1) (15)
nos indica la posición de cada cuarto con respecto al extremo más cercano.
Aunque no siempre coinciden, se pueden utilizar, en su lugar, los cuartiles , ya
que, en la práctica, la diferencia no es substancial.
También se suele dividir cada cuarto en dos partes iguales, obteniéndose dos
nuevos índices : <« octavo inferior(E) y superior(E)».
El «octavo inferior» es, por tanto, el valor de la variable que, situado por debajo
del primer cuarto, tiene una profundidad igual a la parte entera de 1/2 (d (H.) +1 ) ,
1 De esta forma, la mediana siempre coincide con uno de los datos , lo que resulta razonable cuando se
trabaja con variables discretas.
131
mientras que el «octavo superior» es el valor de la variable que, situado por encima
del cuarto superior, tiene una profundidad igual a la parte entera de 1/2 (d (H) +1 ) . La
distancia, d(E) , de los octavos al extremo más próximo es
IQR = Hs - Hi (18)
H +Hs
H= (19)
2
E + Es
E= (20)
2
Ejemplo 4.4
d (E )= 3 d ( Ma )=10 d (E )= 3
d (H)= 5 d (H) = 5
1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1
33 34 ( 36) 37( 39) 42 42 43 44 44) 45 45 47 49 52( 54) 56( 62) 63 72
H = 39 Hs = 54
E. = 36 Md =44 E = 62
1 S
Figura 4.1 .: Determinación de índices.
132
Sucede que, si comparamos la serie de datos con que trabajamos con la distribu-
ción normal, la amplitud del rango intercuartos debe ser igual a 1'5 veces la
desviación típica.
Entonces, si consideramos un intervalo formado añadiendo a cada uno de los
extremos del intervalo intercuartos la extensión 1’5 · IQR, el nuevo intervalo cubrirá
todos los valores de la población salvo el 7% de los mismos , dejando un 3'5% en
cada uno de los extremos.
A los valores que quedan fuera de dicho intervalo se les denomina « exteriores» .
Los valores más alejados del centro, pero todavía interiores, son denominados
<<adyacentes».
Se distinguen dos tipos de valores exteriores : «alejados» y « remotos » . Para
definirlos con precisión , se introducen dos pares de límites llamados «límites inter-
nos», que distan un «paso» de los cuartos, y «límites externos», que distan 2
«pasos» de los cuartos .
Entonces los límites internos inferior(L) y superior(L) se obtienen de restar y
sumar un paso a cada uno de los cuartos inferior y superior, respectivamente:
L = Hi - Pa, Ls = Hs + Pa (22)
T = H - 2 Pa , Ts = Hs + 2 Pa (23)
Los valores de la variable que caen en el espacio comprendido entre los límites
internos y los externos, se consideran datos « alejados» , y aquellos que sobrepasan
los límites externos se consideran datos «remotos».
Las fronteras para determinar los datos anómalos se han establecido comparando
estos intervalos con los correspondientes a la normal, de modo que la probabilidad
de que aparezca un dato remoto es inferior a 0'00698.
133
* remotos
T
alejados
Ls adyacentes 2 P
1'5 P
a
Hs
Ma Paso
H1
1'5 P
L a
1 adyacentes 2 P
עם
0 alejados
T
* remotos
Una caja rectangular forma el núcleo del gráfico. Para construirla, se toman
sobre una recta vertical u horizontal, según la posición que se quiera dar al gráfico,
divisiones que abarquen el rango de la distribución.
Se marcan los cuartos y la mediana mediante tres segmentos paralelos con las
medidas que proporciona la tabla de letras-índices . Uniendo sus extremos por dos
segmentos paralelos, queda determinada la caja, que abarca el 50% de los datos. Del
punto medio de ambos costados de la caja salen dos segmentos rectilíneos («< exten-
siones» o «patillas»), cuya longitud máxima es 1'5 pasos.
Los extremos de las patillas coinciden con los datos «adyacentes». La longitud
máxima será nula cuando el dato «< adyacente» coincida con el cuarto correspondien-
te. Más allá de las extensiones se encuentran los datos «alejados» en una zona que
va desde los límites internos hasta los límites externos ; se representan por el
símbolo «o » .
Los datos remotos son los que caen fuera de los límites externos , y se representan
por un «*».
El gráfico en caja y extensión proporciona:
1) La «mediana» (segmento interior a la caja), que nos da una idea de la
localización de los valores centrales .
2) La <
«dispersión» (facilitada por la posición de los cuartos).
3) La «simetría central» (detectada por la posición de la mediana respecto de los
cuartos).
4) La «<simetría de los extremos» (puesta de manifiesto por la longitud de las
extensiones ) .
5) El «apuntamiento» (relación entre la longitud de la caja y las extensiones) .
6) Los datos anómalos», (situados fuera de los límites internos).
Ejemplo 4.5
Calificaciones 1 2 4 5 6 7 8
Nº de alumnos 1 1 2 7 7 8 5
BAJOS | 10
234567
N=31 2 0
P(M ) = 16 Ma =6 2
H₁= 5 Hs=7 H= 6 4 00
P (H ) = 8 E =4 E =8
1 1 E= 6 11 0000000
P (E ) = 3 L₁1=2 L =8
(7) 0000000
13 00000000
5 8 00000
Figura 4.4.: Tabla de 7 letras para el ejemplo 4.5. UNIDAD=0'1 112= 1'2
p: 2 , 3
( X - Ma } + ( Ma- X i
uj = (25)
4 Ma
Xi + Xs
Vj Ma (26)
2
Vj
m; = (27)
uj
p = 1- m (28)
Ejemplo 4.6
12 16 20 25 30 35 38 40 45 50 57 65 74 76 90
Ma = 40, H = 45, E = 46
lo que indica un sesgo hacia la derecha, luego debe de ser p< 1 . Apliquemos ahora el
método de las pendientes para determinar el mejor valor de p. La siguiente tabla
recoge un resumen de los resultados :
X X u m
H 25 65 5.3 5 0,94
E 16 76 11,7 6 0,51
p= 1-0'51 =0'49
T(X) = X 1/2
3'46 4 4'47 5 5'47 5'91 6'16 6'32 6'7 7'07 7’54 8'06 8'6 8'71 9'48
Los datos transformados proporcionan unos promedios más próximos entre sí:
lo cual es señal de que la nueva serie de datos tiene menos sesgo. Podemos compro-
bar este resultado trazando los diagramas de tronco y hojas correspondientes a las
dos series de datos (los situamos «espalda contra espalda» para compararlos mejor) :
21 1
23
50 2
850 4 1
(2) 50 4 04 3
567
6 70 049 6
5 137 (3)
3 64 05 6
1 8 0 67 4
1 0 9 4 1
ni
d₁ = (28)
V ai
Ejemplo 4.7
Los histogramas para los datos del enunciado y para sus imágenes por una
transformación de raíz cuadrada pueden apreciarse en las figuras 4.6 y 4.7.
110
90 2
70 1'5
50 1
30
10 0'5
150 250 350 450 550 150 250 350 450 550
4.1 Determinar la mediana, los cuartos, los octavos y los límites externos para la
serie de datos:
55 45 29 45 16 28 71 36 92 63 10 11 26 18 32 91 26 18 32 91 26 27 73 31 26
4.2. Construir el diagrama de tronco y hojas para los datos del ejercicio 4.1 .
98 120 130 95 100 110 97 125 128 97 94 105 101 99 90 100 102 93 102
70 220 205 360 410 800 920 980 770 420 196 190 145 95 350 400
4.5 . Se ha realizado una encuesta para averiguar el número de personas que convi-
ven en una misma vivienda de un barrio de determinada ciudad, obteniéndose los
resultados :
Nº de personas 1 2 3 4 5 6 7 8
Frecuencias 10 25 56 15 10 8 3 1
18 13 18 19 16 17 14 17 16 15 16 17 14 14 16 13 15 16 13 16 18 18 12 19 12 16 18 16 16
404 326 125 65 89 326 145 190 63 109 320 208 190 216 314 60 92 185 280 143
200 66 189 218 63 313 216 180 204 324 109 63 140 105 107 79 88 69 208 400
270 109 66 403 66 360 305 275 180 402 120 208 122 200 55 78 55 202 160 102
4.8 . Preguntados por los gastos que realizan a la semana 850 adolescentes de 12 a
14 años, se han obtenido las siguientes respuestas :
4.9. Las puntuaciones obtenidas por dos grupos de alumnos en dos pruebas , una de
conocimientos (X ) y otra de capacidad de abstracción (Y ) han sido:
X, 15 15 16 17 17 18 18 18 18 18 19 20 20 21 21 21 22 22 23 23 23 26 29
Yi 17 16 17 18 16 17 18 19 19 20 18 20 19 20 18 19 22 21 18 13 16 22 21
4.10. Una empresa ha decidido hacer un reajuste laboral entre sus empleados , con el
acuerdo de asignar las distintas categorías laborales en función de unos baremos
acordados con los trabajadores, de forma que:
1 ) Se ordena la población según la puntuación obtenida, y se divide en cuatro
partes iguales .
2) Se asignan las categorías A, B, C y D, por este orden, a los empleados que se
encuentren en cada una de las partes .
4.11 . El volumen de ventas (en millones de pesetas) realizado por las veinte sucur-
sales de unos grandes almacenes ha sido:
4.12. La producción de trigo y maíz obtenida en los diez últimos años por una
cooperativa agrícola (expresada en fanegas) ha sido la siguiente:
Trigo 180 195 214 217 220 253 260 300 298 306 302 298
Maíz 95 87 101 103 105 96 107 98 80 76 86 79
Hallar los índices de variación cuartílica de las dos series de datos . ¿Cuál de ellas
es la más homogénea?
4.14 . Las puntuaciones obtenidas por un grupo de alumnos en una prueba objetiva
han sido :
21 23 25 33 35 37 38 38 39 39 42 42 43 43 44 46 48 48 51 51 52 54 54 55
55 56 58 61 61 61 62 64 65 66 68 68 70 70 70 70 70 70 70 70 71 72 72 73
74 74 75 76 76 76 77 80 81 86 91 92 93 94 94 95 95 98 98 99
4.15 . Se han tomado dos muestras de 180 familias para hacer un estudio de las
declaraciones sobre la renta en dos provincias (A y B) de una comunidad autónoma,
obteniéndose los siguientes resultados:
144
Renta sobre 1000 ptas. [0,10) [ 10,20) [20,30) [30,40) [40,50) [50,60) [ 60,70) [ 70,80) [80,90)
No familias de A 18 35 43 29 18 10 12 6 9
No familias de B 12 30 53 39 15 14 9 6 2
DISTRIBUCIONES BIVARIANTES
Los individuos de una población pueden ser clasificados atendiendo a dos carac-
teres simultáneamente. Así, puede hacerse un estudio de la población adulta de un
país atendiendo a dos caracteres de sus individuos , como pueden ser la talla y el
peso.
De este modo se obtiene una distribución bivariante de frecuencias , cuyos datos
pretendemos:
a) presentar mediante una tabla estadística de doble entrada;
b) definir sus distribuciones marginales ;
c) definir sus distribuciones condicionadas;
d) estudiar las distintas representaciones gráficas ;
e) analizar los problemas de regresión y correlación.
Los dos caracteres observados , X e Y, no tienen por qué ser del mismo tipo .
Pueden ser los dos cuantitativos , como es el caso de la talla y el peso, los dos
cualitativos , o uno cualitativo y otro cuantitativo.
La representación gráfica de una variable estadística bidimensional depende de la
naturaleza de los caracteres . Según sean los caracteres cualitativos o cuantitativos, y
éstos discretos o continuos, pueden presentarse seis alternativas.
nij
= (1)
N
ŹŹn₁ = N (2)
i=1_j=1
ya que se supone que tanto las modalidades X, como las modalidades Y, deben ser
incompatibles y exhaustivas.
II. La suma de las frecuencias relativas extendida a todos los pares de modalidades
es igual a la unidad:
ŹŹ f₁ = 1 (3)
i=1 j=1
En efecto:
1 P 9
ΣΣΣΣ . = nij = N=1
i=1 j=1 i=1 j=1 N N i=1 j=1
XIY Y₁ Y.2 Y Y
q
112
n 119
X nil n₁i
12
X, ₪21 n 22 12j 9
X Di ni2 n. n.
l --- iq
X npl n n
P2 pq
Para cada i , los valores n, se obtienen de sumar las frecuencias absolutas de cada
fila de la tabla. Los n1. se sitúan en la columna marginal de la derecha, y definen la
distribución marginal del carácter X.
La frecuencia relativa marginal de la modalidad X, es:
ni.
fii. =
f₁ (5)
N
[Link] . Propiedades
Para cada j , los valores n , se obtienen de sumar las frecuencias absolutas de cada
una de las columnas de la tabla, se sitúan en una fila marginal en la parte inferior de la
tabla, y definen la distribución marginal del carácter Y.
La frecuencia relativa marginal de la modalidad Y será:
n.j
f = N (7)
[Link] . Propiedades
XY Y₁ Y₂ Y Y Fa.m. F.r.m.
q
نين
1 1J
༌
120
X 2 n n np. f
p Пр PJ pq P.
Fa.m. n2 n n N 1
n₁ J q
82
F.r.m. f..1 f. f 1
q
149
X n f
X n₁j f
X, n2 f,
X n.
1J
X n
P pj P
Total n 1
J
nij
(9)
ni.
Y Y Y₂ Y Total
Y₁
Dil n. [Link] Dn
i.
າງ n₁₂ 1J
f fi f₂ f fi 1
q
5.5.1 . Propiedades
9
I. Źƒ{
Σ = 1 y Σƒ '; = 1 (10)
i=1 j=1
Exi
ni.
i= 1 (12)
x= " s} = = { ( x; −- x }³ n;, $x = ² nj
Σ (x; - x )
N N =1 VN i= 1
9
Żyjn.j
j= 1 1 14
= ²nj
(y -5)
N N Σ (y, -ỹ)²nj, sy = N j=1
Varianza de X/Y=y;:
I
- = Xi - Xi (14)
n.j i= 1 i=1
1
y; = £ y; ƒ'¸
ÿ; = − ¿y;n; = (15)
ni. j=1 j=1
Varianza de Y/X=x :
1 q q
= (16)
ni . j=1 j=1
Ejemplo 5.1
40-45 3 2 0 0
45-50 1 1 1
214201
50-55 4 4 5
55-60 7 3 1
46
63222
60-65 6 6
65-70 4 6
70-75 0 3 3
75-80 4 3
80-85 1 2 5 2
224
40-45 3 0 0 5 0'05
45-50 1 1 1 5 0'05
50-55 2 4 4 5 15 0'15
55-60 1 7 3 1 12 0'12
60-65 4 6 6 4 20 0'20
65-70 2 3222 4 6 15 0'15
345
70-75 0 3 8 0'08
75-80 1 3 10 0'10
80-85 1 2 10 0'10
15 30 30 25 100 1
J
f. 0'15 0'30 0'30 0'25 1
Podemos observar cómo hay 15 jóvenes que miden entre 1,50 y 1,60; 30 jóvenes
que miden de 1,60 a 1,70; 30 jóvenes que miden de 1,70 a 1,80, y 25 jóvenes que miden
de 1,80 a 1,90.
Asimismo, hay 5 jóvenes que dan un peso comprendido entre 40 y 45 kilogramos ;
5 jóvenes con peso entre 45 y 50, etc.
La media de los pesos es:
1 12206
= Σ(x; - 63,7 )² n₁ = == 122,06; $x = 122,06 = 11,04
100 i=1 100
1 4 1,027
= Σ (y, -1,715 ' nj = = 0,0102; s, = √√0,0102 = 0,10
100 100
Veamos ahora cuál es la distribución de los pesos (variable X) , pero únicamente de los
jóvenes que miden de 1,60 a 1,70. Se trata de la distribución de la variable X condicio-
nada por Y= 1,65, que vendrá dada por la siguiente tabla:
153
n₁ Y=1,65 fY=1,65
40-45 2 0,066
45-50 2 0,066
47632
50-55 0,133
55-60 0,233
60-65 0,200
65-70 0,100
70-75 0,066
75-80 2 0,066
80-85 2 0,066
30 1
La distribución de las estaturas (variable Y) , pero sólo de los jóvenes que pesan
de 70 a 75 Kilogramos, es decir, la distribución de Y condicionada por X=72,5 vendrá
dada por la tabla:
nx=72,5 j 0 2 3 3 8
5.7.1. Independencia
luego ff , c.q.d.
ƒ₁ = ƒ; f'; = ƒ} ƒ{
f = fi
Luego
= = =
lo que significa que Y/X, tiene la misma distribución que Y, para todo i. Luego Y es
independiente de X, c.q.d.
La proposición 5.2 nos dice que «siempre que un carácter X sea independiente de
155
otro carácter Y, lo será Y de X» . Por ello, se dice que los dos caracteres son indepen-
dientes.
Ejemplo 5.2
Y
Y₁ Y2 Уз Ул Ys n₁
X
55
428
264
13
X 2 3 15
X2 9 15 12 3 45
X3 4 6 10 2 30
X 8 12 20 16 4 60
n 20 30 50 40 10 150
Basta con observar cómo las frecuencias absolutas de cada modalidad son pro-
porcionales entre sí y a las frecuencias absolutas marginales ; en otras palabras, las
filas son proporcionales entre sí, y también lo son las columnas .
5.7.2. Dependencia
Ejemplo 5.3
Edad Esposo 25 26 27 28 29
Edad Mujer
19 250 0 0 0 0
20 0 280 0 0 0
000
21 0 320 0 0
22 0 0 440 0
23 0 0 0 410
Es evidente que hay una relación funcional entre las edades de marido y mujer:
cada hombre está casado con una mujer 6 años más joven.
Ejemplo 5.4
En una ciudad próxima a la del ejemplo anterior, al analizar las edades de marido y
mujer entre sus 1500 matrimonios, se obtuvieron los siguientes resultados :
Ejemplo 5.5
En una tercera ciudad, menos hipotética que las anteriores , al comparar las edades
157
entre marido y mujer de 7500 matrimonios jóvenes, se obtuvieron los siguientes resul-
tados:
En esta última ciudad no hay dependencia funcional entre las edades de esposo y
esposa. No obstante, puede existir una cierta relación de dependencia entre ambas
edades, relación que será estudiada en el capítulo 6.
5.8. Momentos
Tienen interés los momentos que se obtienen cuando el par (c,d) es el par formado
por las medias marginales o el par formado por las coordenadas (0,0) del origen.
ΣΣ xi jnij ΣΣ
i=1 j=1 i=1 j=1
a00 = = =1
N N
p q P 9
ΣΣxi nij
i=1 j=1 i=1 j=1
a10 = = x a01 = = y
N N
P q P q
ΣΣxi nij ΣΣ ¡ nij
i=1 j=1 i=1 j=1
a20 = a02 =
N N
P q P
Σ Σxi yj nij ŹŹ ( x; - x )( Y ; - ỹ) nij
i=1 j=1 i=1 j=1
all = mil =
N N
P P q
ΣΣΟ - ΧΡΟ - nij
ΣΣ (x - xny
i=1 j=1 i=1 j=1 = s
m20 = =
N N
P 9 p
Nij
ŹΣ(x; − x ) (y ; - ỹ } n¡ ŹΣ ( y, -ỹ } nj
i=1 j=1 i=1 j=1
mo2 = =
N N
5.8.4. Propiedades
1
I. x= = (20)
Σ Xini. N у, п.;
N i=1
1
II. a20 = Σxini. (21)
N i=1 a02 = Ση
N j=1
III . m20 =a20 -α10 m02 =α02 -α01 (22)
La propiedad III nos permite obtener las varianzas marginales de modo más senci-
llo a partir de los momentos respecto al origen.
Ejemplo 5.6
M 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7 7 7 8 8 8 8 9 9
F 4 6 4 4 5 6 4 5 6 6 7 5 6 7 7 6 8 8 9 7 8 9 10 9 10
Solución:
MF 4 5 6 7 8 9 10 Total
3456789
1210OO
245 +442
0 1 0 0 0 0
1 0 0 0 0 4
1 2 1 0 0 0
1 1 2 0 0 0
0 0 0 2 1 0
0 0 0 1 1 2 1
0 0 0 0 1 1 0
Total 4 3 5 4 4 3 1 25
M n Mn M2 M²n
3 2 6 9 18
4 4 16 16 64
5 5 25 25 125
+4423
6849
24 36 144
7 28 49 196
32 64 256
9 18 81 162
25 149 965
160
149
M = a10 = = 5,96
25
965
a20 = = 38,6
25
2
SM = m20 = α20 - α10 = 38,6-35.5216 = 3,0784
SM = √√3,0784 = 1,7545
Fin Fn F²n
4 4 16 16 64
5 3 15 25 75
6 5 30 36 180
7 3 21 49 147
433
888
4 32 64 256
9 27 81 243
10 3 30 100 300
25 171 1265
171
F = α01 = == 6,84
25
1265
a02 = == 50,6
25
SF = √√3,82 = 1,954
5.8.5. Covarianza
1. (23)
Esta propiedad nos indica que la covarianza es la media del producto de las varia-
bles menos el producto de las medias .
Ejemplo 5.7
hacer una agrupación en clases, éstas serían muy poco numerosas y de gran ampli-
tud, por lo que los cálculos resultarían poco precisos.
En estas situaciones , se estudian los pares de valores (x ,y ) , donde i recorre los N
individuos de la población, considerando la frecuencia absoluta de cada par igual a la
unidad. De esta forma, las medias y varianzas marginales vienen dadas por:
1 N
x= Exi, y (24)
NΣi=1 N i=1
1 N N
V(X) = Σ ( x; - x )
}
² , V(Y) = =
Ni-l ( y; - ÿ }
Σ ² (25)
N i=1
y la covarianza por:
1 N
mil = (26)
N i=1
Ejemplo 5.8
La tabla adjunta representa los pesos y las alturas de los 12 estudiantes de una
clase:
P 71 72 72 73 73 75 75 75 76 76 76 77
F 1'66 1'68 1'68 1'69 1'68 1'68 1'70 1'70 1'73 1'73 1'75 1'77
Solución:
112 891
1 ) Peso medio: P ΣP₁ = = 74,25
12 i=1 12
1 12 20,45
2) Altura media: A= ΣΑ = 1,7041
12 i=1 12
1,66; 1,68; 1,68 ; 1,68; 1,68; 1,69; 1,70; 1,70; 1,73; 1,73; 1,75; 1,77
Como el número de valores es par, la altura mediana será la media aritmética de los
dos valores centrales :
1,69+1,70
MA = 1,695
2
163
Las alternativas que pueden presentarse según sea la naturaleza de los caracteres
son:
a) los dos caracteres son cualitativos ;
b) X es cualitativo e Y cuantitativo discreto;
c) X es cualitativo e Y cuantitativo continuo;
d) X e Y son cuantitativos discretos ;
e) X e Y son cuantitativos continuos ;
f) X es cuantitativo discreto e Y cuantitativo continuo.
Por otra parte, al hacer la representación gráfica de una variable bidimensional ,
podemos pretender:
i) mostrar la distribución conjunta;
ii) mostrar cada una de las distribuciones condicionadas según un carácter en
función de las modalidades del otro.
Esto da lugar a una gran variedad de representaciones gráficas, dependiendo
también su uso del campo de investigación.
Ejemplo 5.9
Para representar la producción de los productos según el país, son necesarias las
distribuciones condicionadas acumuladas para cada uno de los productos , que vie-
nen dadas por:
100
URSS
Canadá
50
[Link].
0 China
Carbón Petróleo Hierro Acero Todos
100
Acero
50 Hierro
Petróleo
Carbón
China [Link]. Canadá URSS Todos
Cuando uno de los dos caracteres, por ejemplo X, presenta únicamente dos moda-
lidades, se puede utilizar un diagrama de sectores constituido por dos semicírculos de
diferente radio (uno por cada modalidad del carácter), que se elabora de acuerdo con
los siguientes criterios :
i) los radios se toman proporcionales a la raíz cuadrada de las frecuencias absolu-
tas marginales del carácter dicotómico, n ;
ii) los ángulos centrales son proporcionales a las frecuencias relativas condiciona-
das f .
De este modo, se consiguen dos semicírculos de diferente radio, cada uno de los
cuales corresponde a una de las dos modalidades del carácter dicotómico.
Las áreas de los sectores serán, por tanto, proporcionales a las frecuencias abso-
lutas de la distribución conjunta, n , ya que el área del sector es proporcional a la
amplitud del ángulo por el cuadrado del radio:
nij
', (√n.)² = ƒ', n = ni. ni. = nij
ƒ
Ejemplo 5.10
Consideremos la distribución, por razón del sexo y estado civil, de las personas de
40 a 50 años residentes en el año 1990 en una pequeña ciudad, según describe la
siguiente tabla:
Los radios de los semicírculos deben ser proporcionales a las frecuencias absolu-
tas: 7965 y 7265.
Necesitamos, para determinar los ángulos centrales, las distribuciones condiciona-
das acumuladas según el estado civil para las dos modalidades (mujeres y hombres)
del carácter dicotómico:
Casados
Viudos
Divorciados
Otros
Mujeres (7965 )
Ejemplo 5.11
La siguiente tabla contiene la distribución del número de hijos por familia según la
clase social a que pertenecen :
CANº H 1 2 3 4 5 Total
CANº H 1 2 3 4 5
Las cuatro primeras filas nos proporcionan las alturas acumuladas de los rectán-
gulos que corresponden a las distribuciones condicionadas según el número de hijos,
en tanto que una quinta fila contiene los datos globales .
En la figura 5.4 puede apreciarse su representación . La quinta pila de rectángulos
corresponde a la distribución conjunta.
100
5 hijos
4 hijos
50
3 hijos
2 hijos
1 hijo
CAN" H 1 2 3 4 5 Total
Tomando las alturas de los rectángulos proporcionales a los valores de cada co-
lumna de la tabla, se obtiene la representación de la distribución global y de las
distribuciones condicionadas según la clase social, tal como recoge la figura 5.5 .
100
[Link]
C.m-alta
50
[Link]
0 [Link]
Ejemplo 5.12
MACN 4 5 6 7 8 9 10 Total
35
23456789
0222 3 4 NO
01122210
2334520
02
1 0 6
4 0 7
5 4 2 0 17
4522
4 4 0 20
427O
4 1 24
301
0 15
1 1 2 1 8
0 1 1 0 0 1 3
Total 19 22 18 17 13 8 3 100
Ejemplo 5.13
MACN 11 12 13 14 Total
130-140 0 1 0 0 1
140-150 3 1 0 1 9
222
2553
150-160 7 10 12 6 35
53
30
160-170 12 15 35
170-180 2 5 3 10
2
Total 13 27 15 100
172
Ejemplo 5.14
La siguiente tabla recoge las alturas y los pesos de 470 jóvenes de una de las
provincias de Castilla-La Mancha:
173
150-155 9
938
155-160 10 10 20
==
160-165 11 29 31 9 21
165-170 10 29 60 29 10
170-175 20 20 31 11
175-180 10 20 21 10
180-185 9 11 10
Por ser las frecuencias múltiplos de 10 o valores muy próximos a un múltiplo de 10,
vamos a tomar este valor como razón de la proporcionalidad . Así, para representar
una frecuencia absoluta de 60, dibujaremos 6 puntos .
70
·
65
60
·
55
·
50
· ·
45
[Link]. Estereograma
fij fü
y el volumen ab =fü
ab ab
i=1 j=1
120
080
100
80
60
49
40
6
20
62
58
0 16 50 5594
150 PESO
155 160 165 170 175 180
ALTURA
Ejemplo 5.15
La siguiente tabla recoge los pesos y las alturas de 12 jóvenes de 16 años, cuyo
diagrama de dispersión puede apreciarse en la figura 5.10.
(X) 45 53 57 61 67 63 49 54 61 53 49 60
(Y) 165 172 166 174 159 180 169 177 183 180 169 175
195
175 X
155
40 50 60 70 80
XY 100 50 25
14 1 1
18 2 3
22 1 2
5.3 . Poner un ejemplo de variable estadística bidimensional (X ,Y) , en que las variables
X e Y sean independientes , y otro en que sean dependientes .
XIY 11 12 13 14 17 18
8 8
9 32 8
10 2
11 10
15 40
5.5. La siguiente tabla de doble entrada contiene las frecuencias absolutas de la distri-
bución conjunta de las variables estadísticas X e Y. ¿Son independientes X e Y?
¿Cómo debería ser la tabla para que fueran independientes?
12 1
XIY Y Y3
X 2 3 4
X, 5 15 10
5.6. Determinar, para la distribución del ejercicio 4.1 , los siguientes momentos respecto
al origen:
5.7. La siguiente tabla contiene los pesos y las alturas de 20 jugadores de un equipo
de fútbol:
Peso (X) 73 76 80 73 78 82
Nº de jugadores 4 3 4 2 5 2
5.8. Los ingresos totales (I) de 10 familias y los gastos en transporte (T) durante el
último mes han sido:
177
T 3 5 10 9 11 11 12 877
5.9. Las calificaciones de 15 alumnos en el primero (X) y segundo (Y) examen parcial
de Estadística son:
X 6478 4 5 6 7 8 5 6 6 5 37
Y 567 10 6 4 9 7 5 8 6 7 8 37
Avance Edad 7 8 9 10 11 12
12 13
13 14
250212
122232
361
10-16
17-23 2
1956
224
139
34
24-30 1 3 1
12
31-37 1
38 - 44 4 2
45-51 9 7 5 1
52-58 2 3 10 6 1
5.11 . Para los datos del ejercicio 5.10, hallar las varianzas marginales y la covarianza.
5.12. La siguiente tabla recoge el espacio (en metros) recorrido por un coche desde que
el conductor pisa el freno hasta que se detiene, para distintas velocidades (en km./h.):
Velocidad 20 30 40 50 60 70
Distancia 18 29 46 67 98 132
5.13 . Se sabe que los caracteres X e Y de los 50 individuos de una población son
independientes. Si X presenta 4 modalidades e Y seis, construir una tabla en la que
aparezca claramente la independencia de ambos caracteres .
5.14. Los pesos y las alturas de 290 hombres están recogidos en la siguiente tabla:
50-55 1
27222 +
55-60 8
60-65 15 22 1
65-70 12 63 19 5
70-75 7 28 12 12
75-80 2 10 20 7
80-85 11 4 2
X 0 1 2 3 4 5 6 7 8 9
Y 6,2 4,3 6,4 8,4 8,6 12,1 11,3 12,9 13,7 14,1
5.16. La siguiente tabla recoge las edades en que se han casado 20 parejas:
Edad Mujer 25 18 21 29 24 19 23 27 25 23 24 30 19 17 26 20 25 28 27 21
Edad Esposo 28 23 22 30 27 22 22 26 25 24 25 29 22 25 26 24 27 26 27 25
5.17. Hacer una representación gráfica de la distribución conjunta del ejercicio 5.10, y
representar también el avance de la capacidad psicomotora en función de las edades.
179
5.18. La siguiente tabla contiene los pesos y las alturas de los alumnos de una clase:
Pesos (X) 73 76 78 82 80 73
Nº de alumnos 2 3 5 2 4 4
5.19. La siguiente tabla contiene la distribución de 270 familias de una ciudad según
los gastos (X) mensuales totales (en miles de ptas . ) y los gastos (Y) que habitualmen-
te dedican a cosas superfluas (en miles de ptas. ) :
0-50 2 4 6 0 0 0 0 0
8108
50-60 3 6 7 9 0 0 0
60-70 1 3 5 7 9 11 6
70-80 0 3 5 8 8 12 14 7
420
80-90 0 2 7 6 9 11
90-100 0 0 5 4 9 13 10
100-110 1 1 0 3 3 9 17 10
5.20 . La producción (X) de trigo , maíz, arroz y mijo en los países de Francia, Australia,
[Link]. y China (en miles de toneladas) en 1990 viene recogida en la siguiente tabla:
Apéndice al capítulo 5:
Demostración de las propiedades de las frecuencias condicionadas y de los momentos
I. Demostración de ( 10) :
1
= = n.j = 1
ΣΣΣnij =
i=1 i=1 n.j n.j i=1 n.j
ni; _ 1½ 1
y = ½" = nij = ni. = 1
j=1 j=1 ni. ni. j=1 ni.
II. Demostración de (11 ) :
nij = nj nij
y füij = =
N N n.j
12 9 1P 1 q 1
x= Σ Σx ; y; nij = Σxinij = Xi Nij = Xini.
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1
1 p q 1P 9 1 q q
= ΣΣxiy¡ nij = = Σν. Ση = Σy ; n.j
N i=1 j=1 N i=1 j=1 i=1 N
1 р p q
a20 == = ŹŹ x? v;
Ni=1 j=1 y ng = = ŹŹx?ng
Ni=1 j=1 = Nij = N Σxini.
N j=1 i=1
1 1 19 14
a02 = ΣΣxi y²;n₁j = ¡nij = nij = ¡n.j
N i=1 j=1 N i=1 j=1 N j=1 i=1 N j=1
V. Demostración de (22) :
1P
m20 = ΣΣ(x; −- x )
}
² ( y;, --ym
ỹ )º° nij = ΙΣΣx
N ΕΣ
i=1 j=1 N i=1 j=1 - xm =
q 1 P 1 P 9 1 2 P 9
IM
= Σ(x² -
- 2x x; + x² )nij = ΣΣxinij - 2x ŹŹ xi nj + ΤΣΣ =
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1
1 1P q
m02 = - £
ΣΣ Ź ( Xi
x; − x )
P ( y ; -− ỹ } n; = −ŹŹ (y; -• ÿ } n¡
Nij =
N i=1 j=1 N i=1 j= 1
1 1 q 1 P 1 P
= ΣΣΟ -299 , ++ y² )nij = ΣΣν ¡nij 25 ΣΣ»;ni + 2Σnij =
N i=1 j=1 N i=1 j=1 N i=1 j=1 N i=1 j=1
02 -a
= a02-2y² + y² = a02 - y² = aa02-0
Ahora bien:
P q
ΣΣx₁уjnij
(**) i=1 j=1
all =
N
1P 9 ni.n.j
all = ΣΣ ); = Xini. yj = α10 α01
N i=1 j=1 N
REGRESIÓN Y CORRELACIÓN
1 El término regresión, que hoy usamos con un sentido de «relación » entre variables estadís-
ticas, tiene su origen en un estudio que publicó Francis Galton en 1886, en el que, analizando la
estatura media de los esposos y la estatura media de los hijos, llegó a la conclusión de que hay una
tendencia a aproximarse (regresar) a la estatura media de la población.
185
donde a,, a,,...,a son n parámetros, que dependen del tipo de función y que han de ser
determinados .
A cada valor x de la variable independiente X le corresponden entonces dos
valores de la variable Y: uno es el valor y que le corresponde en la nube de puntos ,
al que llamaremos observado o real, y otro y , al que llamaremos teórico , que se
obtiene de sustituir x, en la función elegida:
Se tienen así dos distribuciones , una real u observada y otra teórica, dependiendo
esta última de los valores que se puedan asignar a los parámetros a,,a,,...,a .
El problema que se plantea es el de determinar estos parámetros de forma que
ambas distribuciones se aproximen lo más posible. Las distintas formas de conseguir-
lo dan lugar a los diversos procedimientos de ajuste .
Una manera de resolver este problema es tratando de igualar los momentos de
ambas distribuciones, lo que constituye el método de los momentos.
Nos vamos a limitar al procedimiento de ajuste más usual, que se conoce como
método de mínimos cuadrados, y cuyo proceso exponemos a continuación .
Tratamos de ajustar una función de la forma y=f(x, a ,, a,, ..., a ) a la nube de puntos
(x , y ) , i= 1,2,... ,p , j=1,2, ...,q.
Para cada valor x, de la variable independiente X, tenemos dos valores de Y: el
valor observado y y el valor teórico y , entre los cuales hay una diferencia, que
vamos a llamar residuo y que representaremos por c :
c=y₁-y₁
La idea, en principio, es la de determinar los parámetros a,, a,,..., a de forma que la
suma ponderada de los residuos sea mínima:
N i=1 j=1
186
La condición necesaria para que esta expresión sea mínima es que las derivadas
parciales de primer orden respecto de cada uno de los parámetros se anulen. De esta
manera se obtiene el siguiente sistema de ecuaciones lineales, llamadas normales,
cuya resolución nos permite obtener los valores de los parámetros y, por tanto, la
expresión de la función ajustada:
дс q
дс P q
=-2 =
дам nij an
i=1 j=1
Hemos de hacer mínima una función que depende de dos variables, a y b, lo cual
se consigue igualando a cero las derivadas parciales. No obstante, vamos a tratar de
determinar los parámetros a y b en el supuesto de que sólo se tengan conocimientos
sobre funciones reales de una única variable real.
Tratamos de buscar, para un valor b dado, el valor de a que hace mínimo a C.
Después determinaremos b haciendo mínimo el mínimo parcial que hayamos obtenido
previamente.
Por tanto, supuesto b fijo, la expresión C depende de a, y, si posee algún mínimo ,
éste debe ser una raíz de
188
dC
=0
da
Ahora bien
N N N N
dC 2 2
Σ (y, -bx, -a): Σ - Na
da N i=1 N i=1 i=1 i=1 N
= -2 [y - bx - a]
y = bx + a (3)
Esta expresión nos dice que el punto G(x, y) pertenece a la recta, es decir, la recta
de regresión de Y sobre X pasa por el centro de gravedad G de la nube de puntos P.
La expresión (3) nos dice también que el mínimo de C se obtiene para el valor
a = y - bx. El mínimo parcial obtenido será
N
m = min C = 1 x ( y; -b x; −= y + bx )
² =
a N i=1
1 N
=
NiΣ[y
l - y - b( x + x)]
Debemos encontrar ahora el valor de b que hace mínimo a m . Para ello, debe ser b
tal que
dm
0
db
dm 2 N
Σ (x¡ - x)[y₁ - ỹ - b( x¡ − x )]
db N i=1
2
N; Σ ( x; - x ) [y ; - ỹ - b( x; − x )] = 0
N i=1
N
1 Σ (x¡-x)(Y; -ỹ)
N i=1
b=
1N
N i=1
2) su pendiente es bух =
byx (5)
1 N 1P 9
D= Σα = ŹŹ (x; Xi - x;}
³ ng =
N i=1 N i=1j=1
1
== ΣΣ(x - d - by, my
N i=1 j=1
m11
r' = x - x = (y- y) (6)
p(x,y) ,
Y
d De la expresión de la recta de
regresión de X sobre Y se sigue que:
bVX y bxv
y
6.4.4 . Predicciones
y=a+bx
la predicción del valor que tomará Y cuando X=x , vendrá dada por
y₁ =a+bx,
Ejemplo 6.1
Matemáticas (X) 8 8 6 6 7 8 5 6 7 7 8 7 8 68
10=7;
a0 a01=5; a =35'53
S 2 = 26'2-25 = 1'2
= a02 a01
byx=0'5714; bxy=0'4444
y-5=0'57(x-7)
y-5=2'25(x-7)
X Y XY X²
X2 Y²
Y2
46
8 32 64 16
8 48 64 36
6 3 18 36 9 5 G (7,5 )
6 5 30 36 25
7 4 28 49 16
8 6 48 64 36
5 4 20 25 16
6 4 24 36 16
7 6 42 29 36 7
7 4 28 49 16
8 5 40 64 25 Figura 6.5: Rectas de regresión del ejemplo 6.1.
7 7 49 49 49
4) La covarianza es positiva, luego son positivos
8 6 48 64 36 los coeficientes de regresión, y, por tanto, las dos
6 5 30 36 25 rectas son crecientes .
8 6 48 64 36
En efecto, al ser bух>0, a mayor nota en Física
105 75 533 749 393 corresponde mayor nota en Matemáticas .
5) Se puede predecir que un alumno con un 8 en
Matemáticas tendrá una nota de 5,57 en Física, pues :
y=5+0'57(8-7)=5+0'57=5'57
6.5. Correlación
1
Sty = Nij (8)
N i=1 j=1 N j=1
En efecto , cuanto mayores sean las diferencias entre los valores observados y los
valores teóricos de la variable dependiente, menor será la intensidad de la relación
entre las variables .
Se dará una dependencia funcional cuando todos los puntos de la nube caigan
sobre la gráfica de la función ajustada, en cuyo caso la varianza residual será nula.
193
La varianza residual, como medida del grado de dependencia entre dos variables ,
presenta dos inconvenientes:
1) La unidad de medida no permite hacer comparaciones de la dependencia entre
grupos de variables.
2) Proporciona una medida inversa del grado de intensidad entre las variables: si la
varianza residual es grande, los puntos de la nube están alejados de la curva ajustada
y, en consecuencia, la dependencia entre las variables será pequeña.
Estas dos dificultades se resuelven dividiendo la varianza residual por la varianza
marginal de la variable dependiente (Y) , y restando este cociente de la unidad:
1-
con lo cual el valor de la medida que se obtiene armoniza con el sentido de la correla-
ción. A este índice de la correlación se le llama coeficiente de determinación y se le
representa por R2:
2
Sry
R² = 1- (9)
Sty (10)
R= 1-
Si tenemos en cuenta que tanto la varianza residual como la varianza marginal son
no negativas, debe ser también 1− R² ≥ 0 y, por tanto R² ≤1 de donde se deduce que
-1≤R≤1 (12)
Con el fin de simplificar los cálculos , vamos a suponer una vez más que la variable
estadística (X , Y) toma los N valores (x ,y ) con frecuencia 1 .
Tendremos
1 N 1 N - Sxy
S = = y -y- 2-( x; -x) =
N i= 1 N
N N N
Sxy Sxy
ΣΟΥ - 1 1 - 2 Σ( x; − x)( Y ; - ỹ) + Σχε =
i=1 Sx i= 1 i=1
2 xy
+ 2 + =S 2
X
Entonces
Sky
Sry Sxy
r・・・
= 1- =
SxSy SxSy
195
Sy
y - y = r = (x - x ) (15)
Sx
Sx
x- x = r (y- y) (16)
Sy
G S
r=0
r=-1 r=1
G S
-1<r<0 0<r<1
Ejemplo 6.2
Peso (Y) 64 66 68 70 72
X Y X2 Y2 XY
El hecho de que dos variables sean incorreladas significa que entre ellas no hay
ninguna relación de dependencia lineal, pero puede haber otro tipo de dependencia.
La relación entre dependencia y correlación la establece la siguiente proposición:
Ejemplo 6.3
Y 4 7 10 13 16 17
X
394493
042240
123456
470
300
0 0
044OO
0
12 0
0 0 0
0 7 0
3 4 0
199
Y 4 7 10 13 16 17
X 470
123456
04
00
30000
39
0 10
0 20
4 12 4 0 20
0 4 2 4 0 20
7 9 4 0 0 20
3 4 3 0 0 0 10
6 22 32 32 8 0 100
Serán entonces:
350 1450
X = = 3,5; s = a20 -X = - 12,25 = 2,25; sx = 1,5
100 100
1042 11830
Y= = 10,42; s = a02 -Y² = - 108,5764 9,7236; s, = 3,1182
100 100
3647
= = 36,47; m = a1 - XY = 36,47-36,47 = 0
100
mil 0
= =0
Luego byx
ух = S 2 2,25
y-10,420 y x- 3,5=0
0
Como r = == 0 , las variables son incorreladas.
SxSy 1,5 × 3,1182
Cuando los datos proporcionados por los valores de las variables no vienen da-
dos por sus frecuencias absolutas , sino por el orden que éstas ocupan en la observa-
ción, resulta más difícil medir la intensidad de la relación , puesto que se posee menos
información sobre las variables. Consideremos el siguiente ejemplo:
Ejemplo 6.4
Cinco alumnos son evaluados en Física y Química por dos profesores . Estos , en
lugar de dar las calificaciones, han facilitado el lugar que ocupan en las respectivas
asignaturas :
Física Química
24315
Luis 2
53
Carlos 5
Pedro
Manuel 1
Julián 4
201
N
6 Σα
i= 1
rs = 1 - (19)
N( N2-1)
El valor obtenido, 0'9, es muy próximo a 1 , lo que indica que los profesores han
dado calificaciones similares.
Un valor muy próximo a -1 habría indicado que los alumnos mejor calificados por
un profesor, serían los peor calificados por el otro.
ΝΣΥ -Ν ΣΥ
rbp
(20)
Ν.Ν. Ν ΣΥ - (ΣΥ)
siendo:
N -número de observaciones en las que X = 1,
N -número de observaciones en las que X=0 ,
N=N,+N -número total de observaciones,
EY,=suma de observaciones Y asociadas a una X con valor 1 ,
ΣY=suma de todos los valores de Y,
EY²=suma de los cuadrados de todos los valores de Y.
Una aplicación típica es la relación existente entre el sexo y las aptitudes para
determinados estudios, como puede ser la aptitud para el conocimiento de un idioma
que se plantea en el siguiente ejemplo.
Ejemplo 6.5
Puntuación 24 17 8 31 24 16 25 30 31 17 14 16 20 8 16 24
16x192-9x321 183
Rbp = = 0'20
Luego:
9x7 [16x7245-3212 ] 900'76
El valor obtenido, 0'20, nos indica una correlación muy débil entre el sexo y la
aptitud para el idioma inglés.
6.6.3. Coeficiente
Si las dos variables son dicotómicas por su propia naturaleza, se utiliza el coefi-
ciente , cuyo fundamento se estudia en el capítulo 15.
203
Supongamos que las variables dicotómicas admiten las dos modalidades A (acier-
to) y E (error) , y designemos por:
a=número de individuos con la modalidad A de X y la A de Y,
b=número de individuos con la modalidad E de X y la E de Y,
c-número de individuos con la modalidad A de X y la E de Y,
d=número de individuos con la modalidad E de X y la A de Y,
según se recoge en la siguiente tabla
Y
A E
AE
99b
a
X
d
cd - ab
Φ (21)
√(a + c)(d + b)(a + d)(c + b)
Ejemplo 6.6
Supongamos que se realiza una prueba a 80 estudiantes con dos tandas de pre-
guntas, y se pretende averiguar si existe correlación entre las dos tandas de pregun-
tas a la vista de las respuestas dadas por los estudiantes: 18 respondieron con acierto
a las dos tandas de preguntas, 16 contestaron erróneamente a ambas, 20 respondieron
con acierto a la primera y erróneamente a la segunda, y 26 respondieron erróneamente
a la primera y con acierto a la segunda. El siguiente cuadro recoge los resultados :
Y
A E
A 18 20
X
E 26 16
20x26-18x16
Φ= = 0'15
(18 +20)(26 + 16)(18 +26)(20 + 16)
Surgen, a veces, situaciones, en que, siendo continuas por su naturaleza las varia-
bles , sus resultados se dan dicotomizados . Es éste el caso en que, tras someter a un
conjunto de personas a una serie de pruebas, se les asigna la calificación final de
«apto » o «no apto» .
Cuando deseemos estudiar la relación entre dos variables de naturaleza continua,
cuyos valores se han dicotomizado, si estamos interesados en la relación existente
entre las variables representadas por los datos dicotomizados, se utiliza el coeficiente
de correlación tetracórica o de atributos, que designamos por r.
La expresión de este coeficiente es muy compleja. Vamos a utilizar una expresión
que da una aproximación bastante buena:
180
TT COS
cb (22)
1+ Vad
Ejemplo 6.7
Los 20 empleados de una oficina que tienen relación directa de trato con el público
han sido evaluados a través de una encuesta que ha permitido clasificarlos según su
trato B(bueno) o M(malo) con los clientes .
Un directivo de la empresa piensa que existe una relación entre la forma en que un
empleado trata a los clientes y su dimensión humana. Atendiendo a este criterio, los
empleados han sido clasificados en gruesos(G) y delgados(D), según pasen o no de
55 kgs. de peso.
Se trata de estudiar la correlación entre estas variables, cuyos resultados
dicotomizados se recogen en la siguiente tabla:
Y
G D
B 7 3
X
M 4 6
205
Este resultado indica una correlación negativa muy débil entre el peso de los
empleados y su forma de tratar al público .
Ejemplo 6.8
X Y X2 Y2 XY
1981 1984
15876 31505964
x= == 1984,5; s = a 20 - -2
x = - 3938240,3 = 5,25; sx = 2,29
8 8
21,9 60,39
y= = 2,7375; s = A02 - = -7,4939 = 0,0548; sy = 0,23
8 8
43456,3
all = == 5432,04; m₁ = a11 - α10 α01 = 5432,04 -5432,57 = -0,53
8
m11 -0,53
El coeficiente de regresión es ẞ ух = 2 = = -0,1
Sx 5,25
y-2,7375-0,1(x - 1984,5)
Previsión para el año 2000:
N
D= [ (ax + bx; + c - y; )²
N i=1
N
ƏD 2
=
да N Σ i=1
(ax + bx; + c- y;) x} = 0
ƏD N
2
= (ax + bx; + c- y₁) x; = 0
дь N i=1
N
ཁྱེ
ƏD 2
== Σ bx; + c - y;) = 0
до N i=1 (ax +
N N N N
aΣxi + bΣxi + cΣxi = Σxi y;
i=1 i= 1 i=1 i=1
N N N N
C
aΣxi + bΣx² + cΣx₁ = Σx₁y;
i= 1 i=1 i=1 i=1
N N N
a Σxi + bĹx , + cN = Žy,
i=1 i= 1 i=1
Ejemplo 6.9
La siguiente tabla muestra los porcentajes de niños fallecidos durante los seis
meses que duró una epidemia:
Mes 1 2 3 4 5 6
Si se dibuja la nube de puntos , parece lógico ajustar una parábola. Vamos a cons-
truir una tabla para facilitar los cálculos :
208
X Y X2 X3 X4 XY X2Y
123
Se llega al sistema:
y=0'79x²-1'62x+3'18
con lo cual ambos problemas quedan reducidos al caso de regresión lineal, ya que las
ecuaciones (25) y ( 26) son las ecuaciones de una recta.
209
Ejemplo 6.10
PV³ = k
y = a + bx
X=logV Y=logP X2 Y2 XY
18,9996 60,2892
x= = 3,1666; s = a20 - x² = - 10,0273 = 0,0208; sx = 0,1444
6 6
2,1781 -2 1,0762
y= == 0,3630; s = a02 - y = - 0,1317 = 0,0476; sy == 0,2181
6 6
6,7080
a11 = == 1,11804; m₁ = α11 - α 10 α01 = 1,11804 - 1,14947 = -0,03143
6
El coeficiente de regresión de Y sobre X será:
m11 -0,03143
В ух = Sx 0,0208 =-1,51
PV1.51 = 139497
6.1 . Para los datos de los ejercicios 5.1 y 5.2, 1 ) hallar la recta de regresión de Y sobre
X; 2) calcular el coeficiente de correlación, dando una interpretación del valor obteni-
do.
X 3 5 7 8 12
Y 24 20 12 10 4
6.3 . Hallar la recta de regresión de Y sobre X y de X sobre Y para los datos del
ejercicio 5.12 . Hacer una predicción de los gastos superfluos que tendrá una familia
cuyos gastos totales son de 85000 ptas .
6.5 . La siguiente tabla contiene el número de meses que lleva entrenando un jugador
de golf y el número de golpes que necesita para hacer el recorrido de un determinado
campo:
Tiempo (X) 1 2 3 4 5 6 7 8 9
Nº de golpes (Y) 80 77 74 71 69 68 68 65 63
6.8. Cien personas son sometidas a dos pruebas , una física y otra de tipo psicotécnico .
Veinticinco personas superaron correctamente ambas pruebas, veinte fallaron en las
dos, dieciocho superaron la prueba física y fallaron en la prueba psicotécnica, y
treinta y siete superaron la prueba psicotécnica y no pasaron la prueba física. Para
estudiar la correlación entre ambas pruebas, ¿ qué coeficiente de correlación se debe
usar? Calcularlo.
6.9 . Con los datos del ejercicio 5.11 , 1 ) ajustar la recta de regresión por el método de
mínimos cuadrados y por el método gráfico; 2 ) hacer una estimación del número de
bacterias que habrá al cabo de 12 horas.
Sexo V V M M V V M M M V V V
Calificación 7 8 679 5 3 4 6 4 3 6
6.11 . La siguiente tabla contiene la distribución de 200 familias según los ingresos totales
(X) y los gastos que por término medio dedican a transporte (Y) (en miles de pesetas):
546523
0-50 3 4
50-60 2 6 4
60-70 8 8 3
70-80 8 9 8
264
808
80-90 5 10 10 6
90-100 4 8 8 10
100-110 4 6 10 8 4
213
6.12. Pensando que hay una cierta relación entre el peso y las calificaciones, se han
clasificado los alumnos de una clase de 40 en gordos(G), si pesan más de 50 kgs . y
delgados (D), si pesan menos, y en aplicados(A) , si su calificación supera el 5 , y no
aplicados(N), en otro caso. Los resultados están recogidos en la siguiente tabla:
G D
A 12 10
N 11 7
¿Qué coeficiente de correlación hay que aplicar? ¿Hay alguna relación entre el
peso y las calificaciones?
6.13 . Se ha realizado un cultivo artificial en una incubadora a 30°C y 210 r.p.m. Partien-
do de un pH inicial de 2'5 y un tanto por ciento de oxígeno variable, se mide la
concentración en levadura y glucosa en función del tiempo , obteniéndose los si-
guientes resultados:
Tiempo (horas) 0 1 2 3 4 5 6 7 8 12 13
C. levadura(g/l) 0'10 0'15 0'15 0'17 0'21 0'21 0'26 0'26 0'35 1'03 1'10
Ingresos 3 10 9 3 8 9 3 7 7 4 3 2
Calificación F E F F EEF F E F F F
¿De qué tipo de correlación se trata? Hallar el coeficiente de correlación que co-
rresponda, y analizar la posible dependencia.
214
6.15 . Para los datos del ejercicio 6.13 , representar la curva de regresión de crecimiento
de la concentración de glucosa (Z), y estudiar el tipo de ajuste que conviene, hallando
la curva de regresión de Z sobre X.
6.16. Para los datos del ejercicio 6.11 , 1 ) determinar la recta de regresión de Y sobre X;
2) ¿cuánto se espera que dedique a transporte una familia que tiene unos ingresos
totales de 150000 ptas . al mes?
6.17 . El mismo tipo de cultivo artificial y con los mismos datos iniciales del ejercicio
6.13 , se llevó a cabo en un fermentador, obteniéndose los siguientes resultados para
la concentración de glucosa:
Tiempo (horas) 0 1 2 3 4 5 6 7
6.18 . Diez alumnos del Curso de Orientación Universitaria han sido evaluados por sus
respectivos profesores de Matemáticas y de Física, quienes han facilitado el listado
de los alumnos ordenados atendiendo a la calificación, pero sin especificarla, siendo:
Nombres Carlos Luis Juan José Mario Pedro Antonio Julián Alberto Felipe
Matemáticas 6 1 3 7 8 5 2 10 4 9
Física 8 7 6 4 5 9 10 1 3 2
¿Qué coeficiente se debe utilizar para estudiar la relación entre las calificaciones de
los dos profesores ? Calcularlo.
215
Apéndice al capítulo 6:
Demostración de las propiedades del coeficiente de correlación de Pearson
I. Llamemos m ' ,, a la covarianza de X' e Y' , y a' , y a' , a las medias de X' e Y',
respectivamente . Entonces :
N N
m'11 =
Σ(a x; + b - a′ 10 )(c Y; + d - a'o₁) ƒ ¡ = Σ(a x; + b - ax - b)(c y¸ + d - cỹ - d) ƒ¡¡ =
i=1 i=1
N N
= Σ(ax;
i=1 - ax)(c y; - cỹ)ƒ¡¡ = ac i=
Σ(x;
1 - x)(y; - ÿ)ƒ¡¡ = acm||
II. Para demostrar esta propiedad, partimos del segundo miembro de la expresión
(13 ), y desarrollamos por separado numerador y denominador:
Desarrollando el numerador multiplicado por N, se obtiene:
N
NS₁y = Nm₁ = (x - x)( y; − y) = Σ(x; y; - x; ỹ - xy; + xy) =
xy; +
i=1 i=1
N N N
=
- Σxy - Σx Xi - X Σy + Nxy =
i=1 i= 1 i=1
N N
i=1
Teniendo en cuenta que x = i=1 ey " resulta
N N
N N N N N N
Σχ Σxi ΣΥ
( i=1
ΣΣΕ ) ΣΕ Σi= 1 i=1 i=1
= +N =
i= 1 N N NN
N N N N N N
W
N
Σxi N ΣΥ
1 N 1 i=1
i=1
NSS = N Exi Συ
N i=1 N N i=1 N
N N
Σχ N ΣΥ
N
= Σx
Nال
i=1 بنا N
البشارة
N N
Σ.Σ.
ΣxiYi- i=1 i=1
N mil i=1 N
r=
N SxSy N N
N Σxi N
ΣΥ
Σxi- i=1 Σ i=1
i=1 i=1
N N
N
Multiplicando por queda finalmente
√N²
N N
ΣΥ
i=1 i=1 i=1
r= c.q.d.
N N N Nلاخ
ا
N
ΝΣΗΣ ΝΣ - Σ
i=1 i=1 i=1 i= 1
SEGUNDA PARTE
E={1 , 2, 3, 4, 5, 6}
y, cuando el químico hace sus mediciones, el espacio muestral está formado por todas
las medidas posibles.
Llamaremos suceso a cada uno de los subconjuntos del espacio muestral. Así,
hablaremos del suceso «obtener par en el lanzamiento de un dado» , que estará forma-
do por
P={2,4,6}
A B ={4,6}
Si hay dos sucesos de un mismo experimento que no pueden tener lugar simul-
táneamente, como es el caso de los sucesos P={ obtener número par} e I= { obtener núme-
ro impar} cuando se lanza el dado, se dice que los sucesos P e I son incompatibles.
La intersección de dos sucesos incompatibles, en principio, carece de sentido. Por
ello, se define el suceso imposible como aquel suceso que no puede tener lugar
nunca; de este tipo es el suceso « obtener un número mayor que 6».
Representaremos al suceso imposible por el símbolo Ø , y consideraremos que
forma parte de todo experimento . De esta forma, la intersección de dos sucesos in-
compatibles es el suceso imposible.
221
AUB = (2,3,4,6}
El suceso contrario del suceso A={ obtener número par} es A' = { obtener número
impar}.
La unión de un suceso con su suceso contrario es un suceso que siempre tiene
lugar. A tal suceso le llamamos suceso seguro .
ACE,VA
ØCA, VA
XE AU(BOC)
Entonces, por la definición de la unión de sucesos, se tiene:
XE (AUB)N(AUC)
Demostremos ahora la relación de contenido recíproca:
XE (AUB)N(AUC)
Por la definición de la intersección, se tiene:
xe AUByre AUC
Entonces, puede suceder que xe A , en cuyo caso xe Au (BOC) , y estaría de-
mostrado, o bien x A, en cuyo caso, como xe AUByxE AUC , se verifica que
xe Byxe C, y, por tanto, xE AU(BOC) , lo que completa la demostración.
223
A- BA B'
A B A
VAE UA'E U
El álgebra de Boole es un caso particular de 6-álgebra , que sólo exige que se cumpla
el primer axioma para la unión finita. La clase de las partes de C es una σ-álgebra.
Con estas definiciones, es posible precisar algunos de los conceptos que hemos
introducido de una manera intuitiva.
Ejemplo 7.1
E={0,1,2,3,4,... } y U=P(E)
Ejemplo 7.2
E = {x = R10≤ x ≤ 1}
En un espacio muestral de tipo continuo, la σ-álgebra no tiene por qué coincidir
con P(E).
Un caso particular de espacio muestral discreto se tiene cuando el número de
puntos muestrales es finito. Entonces se dice también que es de tipo finito. La clase
P(E) es un álgebra de Boole.
Ejemplo 7.3
Para definir el espacio muestral de tipo finito, hemos podido hacerlo por exten-
sión, es decir, enumerando todos y cada uno de los elementos que lo componen.
Cuando se trata de espacios muestrales no finitos, se suelen definir por comprensión,
es decir, enunciando una propiedad característica de todos los puntos muestrales, tal
como acabamos de hacer en el ejemplo 7.3 .
A veces, resulta interesante la descripción de los puntos muestrales por medio de un
diagrama de árbol, lo que también resulta útil para asignar probabilidades a los sucesos.
Ejemplo 7.4 A AA
A
BRC
AB
Un experimento compuesto consis- AR
te en sacar una bola de una urna que BC
B
contiene tres bolas: azul(A), blanca (B) BX
X
En la figura 7.3, se observa cómo las distintas trayectorias del diagrama de árbol
proporcionan los diferentes puntos muestrales.
A
f(A) =
n
NAUB ПА + ПВ ПА ПВ
f(AUB) = = + =f(A) + f(B)
n n n n
Estas propiedades que se dan entre las frecuencias de los sucesos aleatorios se
generalizan, dando lugar a la definición axiomática de la probabilidad, establecida por
Kolmogorov en 1933 , cuyos axiomas son el fundamento del modelo matemático gene-
ralmente aceptado para estudiar las probabilidades .
227
P:U → R
que verifica los tres siguientes axiomas:
Р
PA₁ [ P( A )
( A )=
= i= 1
(2)
Como consecuencia de los axiomas que acabamos de definir, se deducen las pro-
piedades que van a permitir calcular la probabilidad de un suceso cualquiera.
P(AUA')= P(E) = 1
2. P(Ø) = 0 (5)
En efecto, Ø = E' , y, por la propiedad 2 , esP(Ø) = 1 - P(E) = 1-1 = 0
En efecto, el suceso AUB se puede poner como la unión de tres sucesos incom-
patibles:
A- B Entonces
P(A) = P(A - B) + P(A ^ B) y P(B) = P(B - A) + P(A ^B)
B-A Sumando miembro a miembro estas dos últimas
igualdades, resulta:
AOB
P(A)+P(B) = P(A- B) + P(AB) +P(B - A) + P(ANB)
Figura 7.4: Unión de dos sucesos.
Restando P(AB) en los dos miembros , queda:
El tipo de sucesos más frecuente en la práctica diaria nos obliga a hacer una
restricción, que nos va a conducir a la definición clásica de probabilidad o regla de
Laplace.
Sea un espacio muestral finito, donde E= { a,, a,,... ,a } y la s-álgebra de sucesos es
la clase de las partes de E, U=P(E) . Si es admisible el axioma adicional de que << todos
los sucesos elementales son equiprobables» , es decir
Este resultado se conoce como «regla de Laplace», y nos dice que « la probabili-
dad de un suceso es el cociente de dividir el número de casos favorables a dicho
suceso entre el número de casos posibles » , siempre que los sucesos elementales se
puedan considerar todos con la misma probabilidad.
La regla de Laplace permite asignar probabilidades en una gran parte de las situa-
ciones que se presentan: suele tratarse de espacios muestrales finitos , en que los
sucesos elementales son equiprobables .
Ejemplo 7.5
P(C)+P(X)= 1
230
Ejemplo 7.6
P(rey)=4/40= 1/10,
ya que son 40 los casos posibles y 4 los favorables (el nº de reyes de la baraja).
Determinar el número de puntos muestrales en un espacio probabilístico , para
aplicar la regla de Laplace, no siempre resulta fácil . Dependerá, en cada caso, de la
forma en que estén agrupados los puntos muestrales. La teoría combinatoria ' se ocu-
pa del estudio de los distintos tipos de agrupaciones que se pueden hacer con los
elementos de un conjunto.
Ejercicio 7.5.1
E={CCC,CCX, CXC,XCC,CXX,XCX,XXC,XXX}
P(a)= 1/8
2) Probabilidad de los sucesos A=« obtener tres cruces » , B =«obtener una cruz » ,
C=<<obtener al menos una cruz » y D=« obtener más cruces que caras» >:
El número de casos posibles a los cuatro sucesos es 8. Veamos los casos favora-
bles a cada uno de los sucesos considerados :
i) hay 1 caso favorable al suceso A: XXX ; luego
P(A)= 1/8
ii) hay 3 casos favorables al suceso B : CCX, CXC y XCC; por lo tanto:
P(B)=3/8
iii) La probabilidad del suceso C , como sucede en general siempre que figura la
condición <<al menos », se halla mejor pasando al suceso contrario, y utilizando la
primera de las propiedades de la probabilidad. Así, el suceso contrario de C es C' =<« no
obtener ninguna cruz» , para el que sólo hay un caso favorable: CCC; luego:
iv) El suceso D se da cuando hay dos o más cruces, por lo que son 4 los casos
favorables: CXX , XCX, XXC y XXX; la probabilidad es:
P(D)=4/8= 1/2
Ejercicio 7.5.2
22
2) «No leer ningún periódico» es el 45 21
suceso A'B' , luego, utilizando una de las
leyes de Morgan y la primera propiedad
de la probabilidad , resulta:
P(A B) (13)
P(B / A) =
P(A)
Demostración:
En efecto:
3. P(E/A)= 1 .
P(AE) P(A)
En efecto, P(E / A) = =1
P(A) P(A)
Propiedades:
Ejemplo 7.7
Una urna contiene 4 bolas blancas y dos rojas . Se extraen dos bolas consecutiva-
mente sin devolución . Si la primera bola extraída resultó blanca, ¿ cuál es la probabili-
dad de que la segunda bola también sea blanca?
P(A)=4/6
234
P(AB) C /C 2/5 3
P(B / A) = = =
P(A) 4/6 2/3 5
P(B/ A) = P(B)
235
Propiedades
P(A B)
En efecto, P(A/ B) = · con P(B)>0. (*)
P(B)
P(AB) P(A)P(B)
P(A/ B) = =
= P(A)
P(B) P(B)
Sucesos independientes dos a dos : Los sucesos de una familia S se dice que
son independientes dos a dos cuando VA, BE S⇒ A y B son independien-
tes.
Ejemplo 7.8
Solución: Designemos por A al suceso «ser chica» y por B al suceso « ser fuma-
dor» .
1) Con los datos del enunciado, tenemos :
P(AB) 0'10
luego P(B / A) = = = 0'22
P(A) 0'45
2) Como P(B/A)=0’22 y P(B)=0'4 , el suceso B depende de A, y los sucesos «<ser
fumador» y «ser chica» no son independientes.
n
P(B) = ΣP(A;)P(B / A;) (17)
i=1
(18)
P(A)P(B/A )
P(A /B) = n
ΣP(A)P(B /A)
i=1
237
Demostración:
como los sucesos A constituyen un sistema completo, son incompatibles dos a dos,
y, por tanto, los sucesos BA, también son incompatibles dos a dos ; luego, en virtud
del segundo axioma de la probabilidad, la expresión anterior es igual a
n n
= P(B ^A, ) + P(B ^ A2) …
+ .. = ΣP(B ~ A; ) = ΣP( A; )P(B / A;)
i= 1 I=1
Ejemplo 7.9
En una ciudad hay tantos hombres como mujeres . El 30 por ciento de los hombres
son universitarios y el 20 por ciento de las mujeres también lo son. Se elige una
persona al azar que resulta ser universitaria. Hallar la probabilidad de que se trate de
una mujer.
P(A2)P(B/ A2 ) 0'5.0′2
P(A2/ B) = = =: 0'4
P(A )P(B / A ) + P( A2 )P(B/ A2) 0'5.0'3 + 05-0′2
238
Una variable aleatoria es una aplicación que asocia a cada suceso elemental un
número real. Conviene definir este concepto con precisión, puesto que es la idea
fundamental que permite dar un tratamiento riguroso a los fenómenos aleatorios .
Ejemplo 7.10
E= { cc , c +, +c, ++ } y U=P(E)
La aplicación que a cada suceso elemental le asocia el número de caras viene dada
por
Veamos que se trata de una variable aleatoria. Para ello, tenemos que hallar las
imágenes recíprocas de los intervalos de la forma (-∞,x] , y comprobar que pertenecen
a U.
-1
six <0 , X' ( - co , x] = eU ,
si0≤x < l , x ' ( -, x ] = { ++ } EU
si 1≤x<2, x'¹ (-∞ , x] = {c + , + c, ++} € U '
si x≥2, x¹ (-∞∞, x] = {cc, c + , + c, ++} € U.
Una variable aleatoria X puede tomar un conjunto de valores finito , infinito nume-
rable o una infinidad no numerable de valores reales . Será discreta o continua, por
tanto , según sea su contradominio o imagen.
La variable aleatoria definida por el número de caras que salen cuando se lanzan
dos monedas es una variable discreta; su contradominio está formado por los puntos
del conjunto:
C={0,1,2}
Hay variables aleatorias que tienen por imagen toda la recta real o algún intervalo
de la misma
A este tipo de variable aleatoria, que no toma valores aislados, le llamamos varia-
ble aleatoria continua, esto es:
240
Si tenemos una variable aleatoria discreta, como puede ser el número de caras que
aparecen al lanzar dos monedas, es conveniente representar las probabilidades con
que toma la variable aleatoria cada uno de los valores numéricos x, por una fórmula .
Esta fórmula debe ser una función de x , f(x) , esto es
1. f(x)20,
2. Σf(x)= 1 ,
3. P(X=x)=f(x).
Ejemplo 7.11
X 0 1 2
0, six < 0
1
si0≤x < l
F(x) = 3
- , sil < x < 2
4'
1, six ≥2
F (x)
1
1
0'5
0,5
0 2 0 1 2
Función de densidad: La función real de una variable real f(x) es una función
de densidad de la variable aleatoria X si verifica
2. S+f(x)dx = 1 (21)
P(a≤x≤b)=P(a<X<b)=P(a<X <b)=P(a<X<b)
Ejemplo 7.12
Solución:
1 1 5
**f(x)dx = S'k(x + 2)dx = k { x² + 2x ] = k{( { + 2) = *k· =
[ -1
0, six < 0
2 4
+ - x, si0≤x < l
F(x) = 5
1, six ≥ 1
1
1
1 1
2 Este término tan expresivo para designar el valor medio se establece en los orígenes del
"Cálculo de Probabilidades ", hacia el sigo XVII , en que los juegos de azar eran el campo de
aplicación de la Estadística, y el interés del jugador se centraba en la " esperanza" de conseguir un
premio.
245
X1P₁ + X2 P₂ + ...+ xk Pk
que es la esperanza matemática de la variable aleatoria X.
Ejemplo 7.13
si X es discreta; y, si X es continua, es
Ejemplo 7.14
Si, para la variable aleatoria X del ejemplo 7.12, definimos la función h(X)= 2X+ 1 , la
esperanza matemática de esta nueva variable aleatoria será:
2 31
E
B(2x + 1 ) = √ (2x + 1 ) (x + 2) dx = ? ↓ (2x² + 5x + 2) dx = 15
1. Sea X una variable aleatoria. Si las funciones de X, g(X) y h(X), son dos varia-
bles aleatorias tales que existen E[g(X) ] y E[h(X) ] , entonces existe también E[g(X)+h(X) ]
y es
='
[*~g(x)f(x )dx ±√
'* h(x)f(x)dx = E[g (X)] ± E[h(Y)]
+00
y E[ag(X)] = √* [ag(x)]f(x)dx = aĴ*^g(x)f(x)dx = aE[g(X)]
E[aX+b]=aE[X] ±b (32)
E[aX]=aE[X] (33)
E[b]=b (34)
(35)
σ} = E[ (x - μ
µ )² ] = Σ (x - µ )²f(x)
X
y, si X es una variable aleatoria continua, es
(36)
ox = E[(X - µ }³] = √™
-x (x - µ }
² f(x)dx
248
Ejemplo 7.15
1 1 1 1
1) = == + ==
X 2 4 4 4 2
√2
y = =
10-1/
2--- 2
2) 21 2
σ = [{ (x - µ } fix) dx = 3[ 4 x² + 15
1/4 x 208
225 x² + 225
128 x = 450
37
Ο
37
y σ= = 0,28
450
ở² = √ˆˆ
-00 x² f(x)dx - 2 µ² + µ² = √ˆˆ
-00 x² f(x)dx - µ² = E( X² ) - µ²
249
2. Sea X una variable aleatoria con distribución de probabilidad f(x) , y sea g(X)
una función de la variable aleatoria X. Entonces la varianza de la variable aleatoria
g(X) es:
μ (38)
•« x) = E{[ 8(X) - µmx] '} = Σ [ 8 (x) -µ «x]* f(x)
- μ
8 ( x) -xxx (39)
x = E [ 8(X) -Hx