Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
1.- Introducción
Hemos visto que la Estadística, atendiendo al alcance de sus conclusiones, se clasifica en:
- Estadística Descriptiva, cuando se encarga de describir un hecho o fenómeno a partir del
conjunto de datos que se han obtenido para explicarlo, siendo que sus conclusiones son
válidas para ese conjunto de datos observados.
En este capítulo nos centraremos en la parte descriptiva de la Estadística, que resulta ser de
mucha utilidad, porque saber describir adecuadamente un hecho o fenómeno a partir de la
información que sobre él se obtiene es crucial para entender todas las principales
características que lo conforman y para hacer análisis de lo que interesa estudiar o
investigar.
En general, existen cuatro tipos de medidas que caracterizan los aspectos sobresalientes de
un conjunto de datos cuantitativos referidos a un hecho o fenómeno que interesa estudiar o
analizar:
Tratan de mostrar, con uno o pocos valores, hacia qué valores tiende el conjunto de los
datos. Es decir, son uno o pocos valores que buscan representar las características
principales de toda la población observada.
1
Entre los principales tipos de medidas, indicadores o estadígrafos de posición o de
tendencia central, se tienen, entre otros: la media aritmética, la media geométrica, la media
armónica la mediana, el modo o valor modal, y los cuantiles o fractiles.
Que complementan a las medidas de posición, mostrando cómo se agrupan o dispersan los
datos en torno a ellas. Es decir, muestran si los datos son o no homogéneos alrededor de los
valores que pretenden resumirlos.
- Medidas de asimetría
Tienen que ver con la forma horizontal que muestran los datos. Es decir, se trata de mostrar
si los datos se agrupan hacia los valores bajos de la distribución o lo hacen hacia los valores
altos, o se distribuyen simétricamente a lo largo de la escala en la que se los mide. Existen
medidas de asimetría como las de Pearson y las de Bowley.
- Medidas de apuntamiento
Tienen que ver con la forma vertical que muestran los datos. Es decir, se trata de mostrar si
los datos tienen una forma apuntada, semiapuntada, o aplanada. Existen medidas que
permiten caracterizar ese aspecto, como el coeficiente de curtosis.
Como ya hemos indicado, son uno o pocos valores que resumen las características
sobresalientes de una distribución. Veamos los principales indicadores, tomando en
consideración su utilidad práctica en el análisis.
2
La media aritmética de ellos, a la que simbolizaremos con x , es igual a
x=
x1 +¿ x +x + x + x +…+ x
2 3 4 5 n ∑
¿ → x = i=1
xi
n
n
La media aritmética de n datos viene a ser aquel único valor que reemplazando a los datos
originales reproduce su suma. Esto se demuestra despejando la sumatoria en la última
n
relación: ∑ x i = n x = x + x + x + ….+ x
i=1
Veamos el cálculo de la media aritmética en el caso de los dos ejemplos que estamos
manejando, uno para variable discreta y el otro para variable continua:
x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20= 4
2+ 1+ 3+0+2+…+ 1+ 2+3+4 +3 54
x= = = 2.16
25 25
Que nos dice que, en promedio, las 25 familias analizadas tienen 2.16 hijos. Este valor, que
es el promedio de los datos que se han generado con una variable discreta, como es el
número de hijos en las familias, resulta que se expresa con fracciones decimales, lo cual
parece contradictorio. Sin embargo, es bueno aclarar que los indicadores en general, como
es en este caso la media aritmética, tienen la connotación de variables continuas, toda vez
que, si se los usa como medida comparativa tiene sentido su valor fraccionado, por
ejemplo, podríamos tener otro conjunto de 25 familias cuya media aritmética del número
de hijos que tienen resulta ser 2.36 y, en consecuencia, podemos concluir que las familias
de nuestro ejemplo tienen menos hijos que los de este último grupo de familias.
3
n = 40 X: Nota en Cálculo I (variable continua)
x1 = 53 x2 = 61 x3= 73 x4 = 60 x5= 82 x6= 92 x7= 71 x8= 57 x9= 64 x10=66
x11 =53 x12 = 82 x13= 71 x14= 62 x15= 54 x16= 81 x17=73 x18= 82 x19= 55 x20= 65
x21= 67 x22= 77 x23= 66 x24= 78 x25=93 x26= 52 x27= 63 x28= 55 x29= 86 x30= 57
x31= 95 x32= 62 x33=84 x34= 65 x35= 72 x36= 77 x37= 90 x38= 82 x39= 60 x40= 59
Este resultado nos muestra que los 40 alumnos de Cálculo II vencieron Cálculo I con un
promedio de 69.95 puntos. Este resultado se puede comparar con promedios obtenidos por
otros grupos de alumnos y sacar las conclusiones que correspondan.
yi ni
y1 n1
y2 n2
y3 n3
….. …
ym nm
TOTAL n
y 1+ y 1+ …+ y 1+ y 2+ y 2+ …+ y 2 + y 3+ y 3+ …+ y 3 +. … .+ y m + y m + …+ y m
y=
n
y 1 n1 + y 2 n2 + y 3 n3 +… ..+ y m nm
y=
n
4
Que, finalmente, se puede expresar de modo resumido así:
y =∑
yi ni
i=1
n
En esta fórmula se puede ver que, para el cálculo de la media aritmética, hay que
multiplicar cada uno de los valores de variable por sus correspondientes frecuencias, sumar
los resultados y el total se debe dividir entre el valor de n.
yi ni yi ni
0 2 0
1 6 6
2 7 14
3 6 18
4 4 16
Total 25 54
y =∑
yi ni 54
i=1 → y= = 2.16
25
n
Se puede ver que el valor que se ha obtenido para la media aritmética es el mismo que se
obtuvo cuando se hizo el cálculo con los datos no tabulados. Esto se debe a que con las
tablas de este tipo no se pierde ninguno de los datos originales, simplemente se los dispone
mejor para un cálculo más ágil.
En este caso se pierde la individualidad original de los datos ya que se los ha tenido que
agrupar en “m” clases. De esta forma, si se quiere hallar la media aritmética dada una tabla
5
construida para variable continua, en realidad lo que se hace es una buena aproximación a
su verdadero valor, que sólo se conseguiría si se trabaja con los datos originales, se los
suma y se divide entre n.
∑
La fórmula que hemos deducido para el caso de tablas con variable discreta: y = i=1
yi ni
,
n
es también válida para este caso, con la única condición de que los valores de y i sean los
valores centrales o marcas de clase de la distribución.
Veamos cómo se aplica esta fórmula para nuestro ejemplo de variable continua:
Li Ls yi ni yi ni
51 a 60 55.5 11 610.5
60 a 69 64.5 9 580.5
69 a 78 73.5 8 588.0
78 a 87 82.5 8 660.0
87 a 96 91.5 4 366.0
Total 40 2,805.0
y =∑
yi ni 2805
i=1 → y = = 70.12
40
n
Esto nos indica que el promedio de notas con el que pasaron en Calculo I los 40 alumnos de
Cálculo II es de 70.12 puntos.
Se reitera que esta es una aproximación del verdadero valor, que sólo se obtiene cuando no
se pierde la identidad de ningún dato. Sin embargo, se puede observar que el valor obtenido
(70.12) y el verdadero valor (69.95) son muy próximos.
Está claro que la media aritmética sólo se puede calcular cuando se tiene un número finito
de elementos de la población objeto de estudio. También es posible calcular cuando se
tienen tablas de distribución de variable continua, con la condición de que no tengan clases
abiertas porque en ese caso no se podría determinar el valor de la marca de clase (y i) de la
clase abierta (primera y/o última clase). En los casos de tablas con límites diferenciados hay
6
necesidad de establecer lo que se llaman “fronteras reales” de las clases que conforman la
distribución.
Pesos Li Ls yi ni yini
50 a 59 49.5 59.5 54.5 58 3.161.00
60 a 69 59.5 69.5 64.5 72 4.644.00
70 a 79 69.5 79.5 74.5 86 6.407.00
80 a 89 79.5 89.5 84.5 64 5.408.00
90 a 99 89.5 99.5 94.5 47 4.441.50
100 a 120 99.5 120.5 110.0 33 3.630.00
TOTAL 360 27.691.50
En esta tabla, para su mejor comprensión, se han hecho las siguientes adiciones:
- Se han conformado los nuevos límites inferior y superior a través del cálculo de las
“fronteras reales”, que consiste en restar media unidad de medida de la variable al Li y
sumar media unidad de medida de la variable al Ls de cada una de las clases, de esta
manera se ha dado “continuidad” a la variable.
- Con esos nuevos límites se han calculado las marcas de clase yi correspondientes.
- Se ha agregado una columna con los valores de y i ponderados por sus correspondientes
frecuencias ni , conformando así la columna yini .
y =∑
yi ni 27.691.50
i=1 → y = = 76.92 kg
360
n
Se puede concluir que el peso promedio de los 360 atletas es 76.92 kilogramos.
- El operador de la media
Es un símbolo (M) que, colocado delante de la variable, o una transformación de ésta, nos
recuerda qué pasos hay que seguir con la variable, o su transformación, para obtener su
correspondiente media aritmética.
En el caso de la variable no tabulada (X) nos recuerda lo siguiente:
7
n
M [xi] =
∑ xi → Sumar (los datos) y dividir (entre n)
i=1
n
En el caso de la variable tabulada (Y) nos recuerda lo siguiente:
m
M [yi] =
∑ yi ni Ponderar (los datos por ni ) sumar (las ponderaciones) y dividir (la
i=1
→
n
suma total entre n)
Este operador permite demostrar de una manera sencilla algunas propiedades que tiene la
media aritmética que es importante conocer para abreviar tiempo y procesos en su cálculo.
- Propiedades de la media aritmética
1ra. Propiedad: La media de una constante, sea que se trate de un solo valor o del mismo
que se repite, es la misma constante.
H/ M[k] = k
n
D/ M[k] =
∑ ki ¿
k +k + k +…+ k nk
= =k s.q.d.
i=1
n n
n
2da. Propiedad: La media de los desvíos de la variable respecto a su propia media es cero
H/ M[yi - y ¿=¿ 0
m m m
D/ M[yi - y ¿ =
∑ ( y i− y )ni =
∑ y i ni
-
y ∑ ni
= y−
ny
= y− y = 0 s.q.d.
i=1 i=1 i=1
n
n n n
3ra. Propiedad: Si se suma o resta una misma constante (k) a todos los valores de variable
la media de los datos originales queda suma o restada por esa constante.
H/ M[yi± k ¿=¿ y ± k
m m m
D/ M[yi
∑ ( y i ± k )n i = ∑ y i ni ± k ∑ ni = y ± kn = y ± k s.q.d.
± k ¿= i=1 i=1 i=1
n
n n n
4ta. Propiedad: Si se multiplican o se dividen todos los valores de variable por una misma
constante k, la media de los datos originales queda multiplicada o dividida por esa
constante.
H/ M[kyi¿=¿ k y
8
m m
D/ M[kyi¿ =
∑ (ky i)n i =k
∑ y i ni = k y s.q.d.
i=1 i=1
n n
En este caso, se debe aclarar que la constante k puede representar tanto la multiplicación
propiamente dicha como la división, ya que dividir por un número no es sino multiplicar
por el valor inverso de ese número. Por ejemplo, dividir entre 5 es lo mismo que multiplicar
por 1/5.
Propiedad combinada: Se puede dar la situación de que se apliquen, simultáneamente, la
3ra. y 4ta. propiedades. Esta propiedad la enunciamos así:
Si se multiplican todos los valores de variable por una misma constante k´ y al resultado se
suma o resta otra constante k´´, la media original queda multiplicada por la constante k´ y a
este resultado se agrega o resta la constante k´´.
H/ M[k´yi± k ´ ´ ¿ = k´ M[ yi¿ ± k ´ ´
m m m
D/ M[k´yi± k ´ ´ ¿ =
∑ (k ´ y i± k ´ ´ )ni = k ´ ∑ y i ni ± k ´ ´ ∑ ni = k´ y ± k ´ ´ s.q.d
i=1 i=1 i=1
n n n
5ta. Propiedad: El promedio de los cuadrados de los desvíos de una variable respecto a
cualquier valor constante k pasa por un mínimo cuando la constante es igual a la media de
esa variable.
H/ M[(yi - k)2] = Mínimo (siempre que k = y )
m
D/ Si hacemos: Z=
∑ ( y i −k )2 ni
i=1
n
Hallamos la primera derivada de Z respecto a k y la igualamos a 0 para hallar un máximo o un
mínimo:
m m m m
dZ 2 ∑ ( y i−k)ni ∑ ( y i −k )n i ∑ y i ni ∑ k ni = 0 → y=k
= i=1 = 0→ i=1 =0 i=1 i=1 s.q.d.
dyi → −¿
n n n n
Se puede comprobar que si se calcula la segunda derivada de Z respecto a k el resultado es positivo.
Luego, queda demostrado que la función, a la que hemos llamado Z, pasa por un mínimo sólo
cuando se calculan los cuadrados de los desvíos respecto a la media aritmética y no lo hace con
respecto a ningún otro valor.
9
Esta propiedad da origen a un indicador llamado “varianza” que es, precisamente, el
promedio de los cuadrados de los desvíos de la variable respecto a su media aritmética, que
se simboliza con s2 y que será visto al estudiar los estadígrafos de dispersión.
6ta. Propiedad
Se la conoce también como propiedad de la “media de estratos” y se la enuncia así:
Si una población se clasifica en L subpoblaciones (a las que se llama estratos) y de cada
una de ellas se conoce su tamaño y su correspondiente media aritmética, la media
aritmética de toda la población ( y ¿ viene a ser un promedio de las medias aritméticas de las
subpoblaciones, previamente ponderadas por sus correspondientes tamaños.
…
Estratos 1 2 3 4 5 L Total
…
…
n(j) n(1) n(2) n(3) n(4) n(5) n(L) n
…
…
ȳ(j) ȳ(1) ȳ(2) ȳ(3) ȳ(4) ȳ(5) ȳ(L)
…
…
ȳ(j) n(j) ȳ(1) n(1) ȳ(2) n(2) ȳ(3) n(3) ȳ(4) n(4) ȳ(5) n(5) ȳ(L) n(L) ∑ ȳ(j) n(j)
…
En este caso la media aritmética de toda la población resulta ser:
L
y= ∑ y ( j)n ( j)
J=1
n
Que no precisa demostración, pues vimos que, cuando se trata de hallar la media de
variable continua, primero hay que ponderar los valores de variable (en este caso las
y ( j) ¿por sus frecuencias (en el caso presente por las n(j)), luego hay que sumar esos
productos y el resultado hay que dividir entre n (n= n(1) + n(2) + n(3) + …+ n(L) ) que es la
suma de los tamaños de los estratos.
Veamos algunos ejemplos para comprender mejor la aplicación de todas esas propiedades:
Ejemplo 1
Las edades de 6 niños de una guardería son 5; 5; 5; 5; 5; 5
5+5+5+5+5+5 30
La media aritmética de esas edades será: x= = =5
6 6
Ejemplo 2
10
Se tiene la siguiente distribución de las edades de 125 personas internadas por Covid 19 en
un hospital:
Li Ls yi ni yini yi - y (yi - y ) ni
20 a 30 25 8 200 -29.4 -235.2
30 a 40 35 14 490 -19.4 -271.6
40 a 50 45 26 1170 -9.4 -244.4
50 a 60 55 32 1760 0.6 19.2
60 a 70 65 28 1820 10.6 296.8
70 a 90 80 17 1360 25.6 435.2
TOTAL 125 6800 0
Li Ls yi ni yini
166 a 170 168 85 14.280
170 a 174 172 125 21.500
174 a 178 176 93 16.368
178 a 182 180 61 10.980
182 a 192 187 36 6.732
TOTAL 400 69.860
∑ y i ni = 69.860
y= i=1 400
n
11
y=¿ 174.65 centímetros
Resulta que, después de haber hecho la medición, se percatan de que la huincha que se usó
no tenía los primeros 4 centímetros; por lo que, hay necesidad de corregir el resultado
obtenido. Para ello, no es necesario volver a medir a todos, sino simplemente aplicar la
tercera propiedad de la media aritmética que nos dice:
M[yi± k ¿=¿ y ± k
En este caso, como se ha medido con 4 centímetros demás a cada conscripto, hay necesidad
de reducir esos 4 centímetros. En consecuencia, la verdadera media aritmética será:
M[yi−4 ¿=¿ y −4 = 174.65 – 4
M[yi−4 ¿=¿ 170.65 centímetros
Ejemplo 4
La distribución de los salarios mensuales de los 250 trabajadores de una fábrica es como
sigue:
Li Ls yi ni yini
2.000 a 2.500 2.250 20 45.000
2.500 a 3.000 2.750 64 176.000
3.000 a 4.000 3.500 88 308.000
4.000 a 6.000 5.000 54 270.000
6.000 a 10.000 8.000 24 192.000
TOTAL 250 991.000
La empresa ha iniciado una negociación salarial con sus trabajadores, quienes piden un
incremento salarial del 10% para todos. La empresa les hace una contraoferta consistente en
un incremento del 4% más un bono fijo de 120 Bs a cada uno. ¿Cuáles serían los nuevos
promedios salariales en ambas situaciones?
Partamos del cálculo de la media aritmética original:
m
∑ y i ni = 991.000
y= i=1 250
n
y=¿3.964 Bs
Con el requerimiento de los empleados el nuevo valor de la media sería:
M[1.10 yi¿ = 1.10 M[yi¿ = 1.10 (3.964) = 4.360.40 Bs
Con la propuesta de la empresa el nuevo valor de la media aritmética sería:
12
M[1.04 yi+120 ¿ = 1.04 M[yi¿ + 120= 1.04 (3.964) + 120 = 4.242.56 Bs
Se observa que los incrementos porcentuales se toman como un factor que multiplica,
mientras que los bonos fijos son una constante que suma.
Ejemplo 5
2 2 2
Li Ls yi ni yi ni (yi - ( y i− y) ni ( y i−69) ni ( y i−71) ni
y¿
51 a 60 55.5 11 610.5 - 2.351.19 2.004.75 2.642.75
14.62
60 a 64.5 9 580.5 - 5.62 284.26 182.25 380.25
69
69 a 73.5 8 588.0 3.38 91.40 162.00 50.00
78
78 a 82.5 8 660.0 12.38 1.226.12 1.458.00 1058.00
87
87 a 91.5 4 366.0 21.38 1.828.42 2.025.00 1681.00
96
Total 40 2805.0 5.781.38 5.832.00 5.812.00
Veamos cómo se usa la 5ta. propiedad aplicándola al caso de las notas en Cálculo I de los
40 alumno de Cálculo II, cuyo promedio era y=¿70.12. Para fines de una mejor
comprensión se presenta una tabla completa a la que se le adicionan columnas que permiten
respaldar la comprobación de la propiedad.
Luego, la media de los cuadrados de los desvíos de la variable respecto a su propia media
aritmética (s2) será:
13
m m
M[(yi - y )2] =
∑ ( y i − y)2 ni =
∑ ( y i −70.12)2 ni = 5.781.38 = 144.53
i=1 i=1
40
n n
Que viene a ser el menor valor que se puede obtener con esta forma de desvíos.
Para verificar esto, se han construido la penúltima y la última columna de la tabla en la que
se han calculado estos cuadrados de desvíos respecto a un valor menor al de la media
aritmética (69¿ 70.12) y un valor mayor al de la media aritmética (71 ¿ 70.12 ¿ y en ambos
casos la suma de los cuadrados de los desvíos respecto a ellos resulta mayor que dicha
suma de los cuadrados de los desvíos respecto a la media aritmética. En consecuencia, si se
calculan los promedios, también se dará esta situación:
5.781.38
M[(yi - y )2] = = 144.53
40
5.832
M[(yi - 69)2] = = 145.80
40
5.812
M[(yi - 71)2] = = 145.30
40
De esta manera, hemos comprobado la 5ta. propiedad en un ejemplo concreto, reiterando
que su aplicación da origen a la varianza (s 2) que, junto a la media aritmética, tiene mucho
uso en la Estadística.
Ejemplo 6
Se ha clasificado una población de 160 atletas por sus correspondientes pesos en
kilogramos y se los ha dividido en 4 estratos o subpoblaciones, conformando la siguiente
tabla:
Estratos 50 a 60 60 a 70 70 a 80 80 a 90 TOTAL
(3) (4)
(1) (2)
14
Medias y ( j) 57.3 63.4 76.5 82.8
Se pide:
Hallar el peso promedio de los 160 atletas.
Utilizamos la fórmula de la media ponderada para realizar este cálculo.
L
∑y
Media simple = J=1 ( j) 57.3+63.4+76.5+ 82.8 =
280
= 70 kg
= 4
L 4
Este valor tiende a mostrar el punto medio de la distribución de la variable (el punto medio
entre el valor más pequeño que es 50 y el valor más alto que es 90, sería precisamente 70).
En cambio, la media ponderada muestra una mejor evaluación de lo que ocurre con los
estratos. Si se observan los tamaños de los estratos, está claro que el primer y segundo
tienen más tamaño que los otros dos, por lo que la media aritmética debe estar hacia la
mitad inferior de la distribución antes que hacia los valores altos, lo cual muestra, para este
caso concreto, la media ponderada ya que 67.08 es menor que dicho punto medio 70.
15
Gn = x 1 × x2 × x 3 × ⋯ × xn → G×G ×G × ⋯ G=x 1 × x 2 × x 3 × ⋯ × x n
La media geométrica se usa principalmente en los casos de poblaciones que demuestran
que tienen un ritmo de crecimiento que sigue una progresión geométrica.
Ejemplo 1
La población de una ciudad el año 2016 fue de 1.147.328 y el año 2020 alcanzó a
1.396.847. Se quiere saber cuál habría sido su población el año 2018.
Datos: x 1=1.147 .328 (año 2016) x 2=1.396 .847(año 2020) G = ? (año 2018)
G ¿ √ x 1 × x 2= √ 1.147 .328 ×1.396 .847 = 1.265.955 habitantes
Ejemplo 2
Si con la misma información se quisiera proyectar la población para el año 2024, se debería
trabajar así:
Datos: x 1=1.147 .328(año 2016) G=1.396 .847 (año 2020) x 2 = ? (año 2024)
G ¿ √ x 1 × x 2 → 1.396.847 =√ 1.147 .328 × x 2 → x 2 = 1.700.631 habitantes
Se podrían hacer estimaciones y proyecciones de población para años intermedios o
posteriores, teniendo el cuidado de que, en el fondo, se trata de ir calculando términos de
una progresión geométrica, buscando que la secuencia de años se acomode a esa
posibilidad.
Como desafío se propone al estudiante hacer una proyección de la población de esa ciudad
para los años 2021 y 2023.
16
1 1 1 1
+ + +…+
M (x ¿ = x1 x2 x3
−1
xn
n
3ro. Se invierte esa media de recíprocos y se obtiene la media armónica:
n n
1 → n
H= −1 = 1 1 1 1 H=
M (x ) x + x + x +…+ x
1 2 3 n
∑ x1
i=1 i
Existen casos de proporcionalidad inversa en las que se aplica la media armónica. Veamos
algunos ejemplos.
Ejemplo 1
Un grupo A de trabajadores pavimentan 150 metros de una avenida con una productividad
de 10 metros diarios. Otro grupo B, de igual cantidad de trabajadores, hace los mismos 150
metros con una productividad de 15 metros por día. Se quiere determinar la productividad
diaria de los 2 grupos durante la pavimentación de los 300 metros de pavimento.
La productividad diaria tiene que ser el total de metros pavimentados dividido entre el total
de días utilizados en ese trabajo.
150
Grupo A: metros pavimentados 150 metros; días utilizados = 15
10
150
Grupo B: metros pavimentados 150 metros; días utilizados = 10
15
300 m
Luego la productividad diaria de todos será: = 12 metros por día
25 dias
Si calculáramos la media aritmética de las productividades diarias por grupo tendríamos:
10+15
x= = 12.5 metros por día
2
Con esta productividad en los 25 días empleados debían haber pavimentado 12.5
×25=312.5 metros y no los 300 metros que realmente pavimentaron.
Veamos ahora qué pasa si calculamos la media armónica de las productividades:
n 2 2
n 300
H= → H = 1 1 = 15+10 = = 12 metros por día
∑ x1 +
10 15 150
25
i=1 i
17
Ejemplo 2
Un auto está siendo probado en tres tramos equidistantes de una carretera (tramo AB, tramo
BC y tramo CA, cada uno de ellos con una distancia de 300 kilómetros). El tramo AB lo
hace a 75 km/h, el tramo BC a 50 km/h y el tramo CA a 60 km/h. ¿Cuál ha sido la
velocidad promedio empleada en los 3 tramos?
Construyamos una tabla con la información que tenemos:
A partir de esta tabla se observa que se han recorrido 900 km en total y se ha empleado 15
horas en todo el recorrido, luego la velocidad promedio empleada en los 3 tramos es:
900 km
Velocidad promedio = = 60 km/h
15 h oras
Si hallamos la media aritmética de las velocidades empleadas en los tres tramos
tendríamos:
75+50+60
x= = 61.67 km/h
3
Con esta velocidad promedio, dado el tiempo total que se ha empleado, tendría que haber
recorrido 61.67 ×15=¿ 925 km, cosa que no ha ocurrido.
Veamos qué sucede si empleamos la media armónica:
n 3 3
n 900
H= 1 → H = 1 1 1 = 4+6+ 5 = = 60 km/h
∑ xi
+ +
75 50 60 300
15
i=1
Que viene a ser exactamente la velocidad promedio con la que ha recorrido los 900 km.
Como desafío se propone al estudiante resolver este otro ejemplo:
Ejemplo 3
Una empresa tiene 3 tanques de 450 litros de capacidad cada uno. El primer tanque se llena
en 75 minutos con el grifo I. El segundo se llena en 90 minutos con el grifo II y el tercero
se llena en 50 minutos, con el grifo 3. ¿Cuál es el promedio de tiempo de llenado por
minuto de los 3 tanques?
18
Nota. - Es importante considerar que la media armónica es útil cuando los tiempos son
variables y las distancias constantes.
Finalmente es bueno aclarar que, a la media aritmética, la media geométrica y la media
armónica, se las conoce también como promedios. No obstante, cuando se hace alusión a la
“media” o al “promedio” sin aclarar si se trata específicamente de alguno de esos
indicadores, se asume que se está refiriendo a la media aritmética. Para designar a la media
geométrica o a la media armónica es necesario nombrarlas explícitamente.
3.4. La mediana
La simbolizaremos con Me y es el valor de variable que divide la población que se estudia
en dos partes igualmente numerosas. Es decir, es el valor de variable hasta el que llega una
mitad de las observaciones y a partir del cual se encuentra la otra mitad de ellas. También
se suele decir que es el valor de variable que supera a no más de la mitad de las
observaciones y es superado por no más de la otra mitad de éstas.
Viene a ser un indicador que está menos sujeto a los datos extremos (muy altos o
demasiado bajos) que presenta una distribución y tiene la virtud de que se la puede calcular
aún en el caso de distribuciones con clases abiertas.
En su cálculo vamos a distinguirlas siguientes situaciones:
19
Para calcular la mediana se ordena esos pesos de menor a mayor:
41; 48; 52; 59; 61; 63; 64; 77; 77; 93
En este caso se presenta dos datos centrales, 61 y 63, que ocupan el 5to y el 6to lugar. Para
hallar la Mediana de la distribución, por convenio en la Estadística, se calcula el punto
medio de esos datos centrales (aunque resulte con fracción decimal)
61+ 63
Me = = 62 kg
2
- Si se trata de una tabulación de variable discreta
En este caso se tienen ordenados los datos, por lo que el cálculo de la Me consistirá en ver
cuál de las clases contiene al dato ubicado al centro de la distribución. Esto se consigue
trabajando con las frecuencias absolutas acumuladas y viendo cuál de ellas contiene a la
n
mitad de la población ( ). Veamos cómo se procede:
2
Ejemplo 3
Dada la tabla de distribución de 25 familias por número de hijos que vimos antes:
yi ni Ni
0 2 2
1 7 9
2 6 15
3 6 21
4 4 25
TOTAL 25
n 25
Para calcular la Me nos fijamos cuál es la mitad de la población estudiada = = 12.5,
2 2
buscamos en la columna de las frecuencias absolutas acumuladas cuál es la que contiene a
esa mitad (en este caso es N3= 15), luego el valor de la variable correspondiente y 3 = 2 es el
valor buscado. En consecuencia, podemos decir que la Me = 2 hijos.
- Si se trata de una tabulación de variable continua
En este caso se presentan los datos agrupados en clases, por lo que se pierde la identidad
individual de ellos. Si bien se puede deducir en qué clase de la distribución debe estar la
n
mediana calculando y buscando la frecuencia acumulada inmediata posterior a ese valor
2
para ubicar la clase en la que está la mediana. Es necesario realizar una interpolación.
20
Se usa la siguiente fórmula, que nace precisamente de un proceso de interpolación cuya
conformación se puede comprobar:
n
−N j−1
Me = Lij + cj 2
N j−N j−1
Donde:
Lij: Límite inferior de la clase en la que está la mediana
cj: Intervalo o amplitud de la clase en la que está la mediana
n
: Mitad de la población o universo en estudio
2
N j : Frecuencia acumulada de la clase de la mediana
N j−1 :Frecuencia acumulada de la clase anterior a la de la mediana
Se observa que Nj – Nj-1 = nj, por lo que podría colocarse ese valor en lugar de la diferencia.
Ejemplo 4
La siguiente es la distribución de las edades de 120 personas que trabajan en una industria:
Li Ls ni Ni
20 28 24 24
28 36 27 51
36 44 33 84
44 52 21 105
52 60 15 120
TOTAL 120
21
Teóricamente, desde 20 hasta 38.18 años tendría la mitad de los 120 trabajadores y desde
38.18 hasta 60 años la otra mitad.
Es bueno ver en un gráfico cómo se aprecia el cálculo que se hace con la fórmula de
interpolación que se ha presentado.
A continuación, se presenta el gráfico correspondiente:
80
Ni
60
40
20
0
20 28 36 44 52 60
Edades en años
22
Se busca calcular la mediana y explicar su significado.
En este caso tenemos los siguientes datos para aplicar la fórmula:
n 250
=¿ = 125 Nj = 151 Nj-1 = 90 cj = 3.000 nj = 61 Lij = 4.500
2 2
n
−N j−1 125−90
Me = Lij + cj 2 →Me = 4.500 +3.000 → Me = 6.221.31 Bs
151−90
N j−N j−1
Esto significa que un 50% de los empleados llega a ganar mensualmente hasta 6.221.31 Bs
y el otro 50% gana desde ese monto hasta 20.000 Bs.
Se observa en este ejemplo que se ha podido calcular la mediana, a pesar de que la
distribución tiene clases abiertas, cosa que no se hubiera podido hacer si se hubiera querido
calcular la media aritmética. La única situación en la que no se puede calcular la mediana
es cuando la clase en la que teóricamente está es una clase abierta.
3.5. Los cuantiles o fractiles
Son valores de variable que dividen el universo en partes igualmente numerosas. La
mediana, en la práctica, viene a ser un cuantil o fractil porque es el valor de variable que
divide el universo en dos partes igualmente numerosas.
Se puede hablar de diversidad de tipos de cuantiles o fractiles, sin embargo, nos
detendremos en los que son de uso más frecuente.
Un aspecto que hay que tomar en cuenta es que, cuando hay interés de dividir la población
en partes igualmente numerosas, es porque se tiene una buena cantidad de datos y estos han
tenido que ser reducidos en su presentación a tablas con m clases. Es decir, se ha tenido que
construir tablas con las características que hemos visto en el caso del manejo de tablas con
datos agrupados.
Aprovechando que se ha podido deducir la fórmula para encontrar el valor teórico de la
mediana con:
n
−N j−1
Me = Lij + cj 2
N j−N j−1
Se puede plantear fórmulas específicas para encontrar cualquier tipo de cuantil o fractil.
Entre los tipos de cuantiles o fractiles más utilizados se tiene: los cuartiles, los deciles y los
percentiles.
23
3.5.1. Los cuartiles
Son 3 valores de variable (Q1,Q2 y Q3) que dividen al universo en cuatro partes igualmente
numerosas. Un cuartil cualquiera, por ejemplo el tercero (Q3), se caracteriza por superar a
¾ de las observaciones y ser superado por ¼ de éstas. Entre un cuartil y otro consecutivo
siempre queda un 25% de las observaciones. Su fórmula general es:
Kn
−N j−1
QK = Lij + cj 4 (K=1,2,3)
N j−N j−1
Kn
Para calcular el valor de cada cuartil previamente hay que calcular y buscar la
4
frecuencia acumulada inmediata posterior para así determinar la clase (j) en la que se halla
y aplicar la fórmula anotada.
Hay que tomar en cuenta que el segundo cuartil (Q 2) viene a ser la mediana de la
distribución y que entre Q1 y Q3 se encuentra el 50% central de la distribución.
3.5.2. Los deciles
Son 9 valores de variable (D1,D2,D3,… y D9) que dividen al universo en diez partes
igualmente numerosas. Un decil cualquiera, por ejemplo el séptimo (D 7), se caracteriza por
superar a 7/10 de las observaciones y ser superado por 3/10 de éstas. Entre un decil y otro
consecutivo siempre queda un 10% de las observaciones. Su fórmula general es:
Kn
−N j−1
DK = Lij + cj 10 (K=1,2, 3,…,9)
N j−N j−1
Hay que tomar en cuenta que el quinto decil (D 5) viene a ser la mediana de la distribución
y, por ejemplo, que entre D1 y D9 se encuentra el 80% central de la distribución.
3.5.3. Los centiles o percentiles
Son 99 valores de variable (P1, P2, P3,…, y P99) que dividen al universo en cien partes
igualmente numerosas. Un percentil cualquiera, por ejemplo el 73 (P 73), se caracteriza por
superar a 73% de las observaciones y ser superado por el 27% de éstas. Entre un percentil y
otro consecutivo siempre queda un 1% de las observaciones. Su fórmula general es:
Kn
−N j−1
PK = Lij + cj 100 (K=1,2,3, …..,99)
N j−N j−1
24
Kn
Para calcular el valor de cada percentil previamente hay que calcular y buscar la
100
frecuencia acumulada inmediata posterior para así determinar la clase (j) en la que se halla
y aplicar la fórmula anotada.
Hay que tomar en cuenta que P50 = D5 = Q2= Me y que entre P1 y P99, por ejemplo, se halla
el 98% central de la distribución.
Veamos un ejemplo en el que aplicaremos lo que se ha visto.
Ejemplo 6
Se tiene la siguiente distribución de ingresos familiares (en Bs) de 400 hogares:
Li Ls ni Ni
2.000 3.000 47 47
3.000 5.000 61 108
5.000 7.500 75 183
7.500 10.000 61 244
10.000 15.000 49 293
15.000 20.000 37 330
20.000 25.000 30 360
25.000 30.000 22 382
30.000 50.000 18 400
TOTAL 400
Se pide:
a) Hallar el Q3 y explicar su significado
b) Hallar el D2 y explicar su significado
c) Hallar el P63 y explicar su significado
d) ¿Entre qué niveles de ingreso familiar se halla el 60% central de la distribución?
e) ¿Desde qué nivel de ingreso familiar tiene el 5% superior de la distribución?
Vamos resolviendo.
a) La fórmula para hallar el Q3 es:
3n
−N j−1
Q3 = Lij + cj 4
N j−N j−1
3 n 3(400)
Calculamos = = 300
4 4
25
Buscamos la frecuencia inmediata posterior N6 = 330, luego la clase en la que, teóricamente
debe estar el Q3 es la sexta. Con ella, aplicamos la fórmula:
300−293
Q3 = 15.000 + 5.000 = 15.945.95 Bs
330−293
El 75% de las familias tiene un ingreso que llega hasta 15.945.95 Bs
b) La fórmula para hallar el D2 es:
2n
−N j−1
D2 = Lij + cj 10
N j−N j−1
2n 2(400)
Calculamos = = 80
10 10
Buscamos la frecuencia inmediata posterior N 2 = 108, luego la clase en la que,
teóricamente, debe estar el D2 es la segunda. Con ella, aplicamos la fórmula:
80−47
D2 = 3.000 + 2.000 = 4.081.97 Bs
108−47
El 20% de las familias tiene un ingreso que llega hasta 4.081.97 Bs
c) La fórmula para hallar el P63 es:
63 n
−N j−1
P63 = Lij + cj 100
N j−N j−1
63 n 63(400)
Calculamos = = 252
100 100
Buscamos la frecuencia inmediata posterior que viene a ser N 5 = 293, luego la clase en la
que, teóricamente, debe estar el P63 es la quinta. Con ella, aplicamos la fórmula:
252−244
P63 = 10.000 + 5.000 = 10.816.33 Bs
293−244
El 63% de las familias tiene un ingreso que llega hasta 10.816.33 Bs
d) Si consideramos los deciles de la distribución, el 60% central se halla entre el D 2 y el D8.
Para ubicar cómo se define esto, nos ubicamos al medio con el D 5. Cuando bajamos un 30%
(la mitad de 60%) desde ese valor llegamos al D 2 y cuando subimos un 30% (la otra mitad
de 60%) llegamos hasta el D8.
2n
−N j−1 80−47
D2 = Lij + cj 10 → D2 = 3.000 + 2.000 = 4.081.97 Bs
108−47
N j−N j−1
26
8n
−N j−1 320−293
D8 = Lij + cj 10 → D8 = 15.000 + 5.000 = 18.648.65 Bs
330−293
N j−N j−1
Luego, el 60% central de la distribución tiene sus ingresos familiares entre 4.081.97 Bs y
18.648.65 Bs.
e) Para hallar desde qué nivel de ingreso familiar tiene el 5% superior de la distribución
debemos hallar el P95 ya que este es el nivel de ingreso hasta el que llega el 95% de las
familias y desde el que se encuentra el 5% restante, que es justamente lo que nos interesa:
95 n
−N j−1 380−360
P95 = Lij + cj 100 → P95 = 25.000 + 5.000 = 29.545.45 Bs
382−360
N j−N j−1
Es decir, el 5% superior de la distribución de ingresos familiares percibe desde 29.545.45
Bs hasta 50.000.00 Bs.
27
2; 3; 3; 4; 4; 5; 5; 5; 6; 7
Se observa que el valor que aparece más veces es 5. Luego, el modo es Mo = 5 puntos
- Si se trata de una tabulación de variable discreta
Para hallar el modo o valor modal de la distribución suficiente es fijarse cuál es la
frecuencia absoluta simple (ni) más alta, el valor de variable que le corresponde será el Mo
de la distribución. Si aparecen dos o más valores de variable con la frecuencia más alta se
marcarán cada una de ellas como el modo de la distribución y se hace constar que ésta es
bimodal.
Ejemplo 2
Dada la tabla de distribución de 25 familias por número de hijos que vimos antes:
yi ni
0 2
1 7
2 6
3 6
4 4
TOTAL 25
a.- Que sea una distribución con intervalo de clase (ci) constante
Para estimar el modo, se acude a un principio razonablemente lógico que dice “Si la
frecuencia posterior a la de la clase en la que se encuentra el modo (clase modal) es mayor
que la frecuencia de la clase anterior es razonable suponer que el modo se halle en la mitad
28
superior de dicha clase modal. Si la frecuencia anterior a la de la clase modal es mayor que
la frecuencia de la clase posterior es razonable suponer que el modo se halle en la mitad
inferior de la clase modal”. En base a ese principio se plantea la siguiente fórmula
n j+1
Mo = Lij + cj
n j −1 +n j+1
Donde:
Lij es el límite inferior de la clase modal, c j es el intervalo de clase constante de la
distribución, n j+1 es la frecuencia absoluta simple de la clase posterior a la modal y n j−1 es
la frecuencia absoluta simple de la clase anterior a la modal
Ejemplo 3
La siguiente es la distribución de pesos (en kg) de 150 personas que asisten a un gimnasio:
Li Ls ni
50 58 30
58 66 33
66 74 39
74 82 27
82 90 21
TOTAL 150
Buscamos la frecuencia más alta, que es n3 = 39. Es decir, la clase modal es la que
comprende los valores 66 a 74, el intervalo de clase constante es cj = 8, la frecuencia de la
clase anterior esn j−1 = 33 y la frecuencia de la clase posterior esn j+1 = 27.
Aplicamos la fórmula:
n j+1 27
Mo = Lij + cj → Mo = 66 + 8 = 69.6 kg
n j −1 +n j+1 27+33
Si observamos ese valor vemos lo siguiente:
La clase modal va de 66 a 74. Esa clase la podemos dividir en dos mitades, una que va de
66 a 70 (mitad inferior) y otra que va de 70 a 74 (mitad superior). El valor Mo = 69.6
hallado se encuentra en la mitad inferior, cumpliendo lo que señala el principio usado para
estimar el modo teórico. En este ejemplo la frecuencia anterior ( n j−1 = 33) es mayor que la
frecuencia posterior (n j+1 = 27), luego es razonable esperar que el Mo se halle en la mitad
inferior de la clase modal.
b.- Que sea una distribución con intervalo de clase (ci) no constante
29
En este tipo de situaciones es necesario “relativizar” las frecuencias por sus
ni
correspondientes intervalos de clase ( ), ya que puede darse el caso de que una clase tenga
ci
la frecuencia más alta porque tiene un intervalo de clase más amplio que las demás. En
consecuencia, una vez relativizadas las frecuencias, se define como la clase modal no la que
tenga la frecuencia absoluta simple más alta sino más bien la que tenga la frecuencia
ni
relativizada ( ) más alta. De esta manera, la fórmula anterior del Mo sufre una
ci
modificación y se la plantea así:
n j+1
c j+1
Mo = Lij + cj
n j−1 n j+1
+
c j−1 c j+1
Veamos cómo se aplica.
Ejemplo 4
Los siguientes son los ingresos mensuales de 300 empleados de un banco:
ni
Li Ls ni
ci
2.100 2.500 19 0.0475
2.500 4.500 98 0.0490
4.500 7.000 78 0.0312
7.000 10.000 51 0.0170
10.000 15.000 34 0.0068
15.000 20.000 16 0.0032
20.000 30.000 4 0.0004
TOTAL 300
Para calcular el valor modal de la distribución se ha agregado una columna que contiene las
frecuencias relativizadas. En ellas se observa que la frecuencia relativizada más alta es la de
30
la segunda clase. En consecuencia, la clase modal es aquella en la que los ingresos van de
2.500 a 4.500. Aplicamos la fórmula y hallamos el valor modal teórico de la distribución:
n j+1
c j+1 0.0312
Mo = Lij + cj → Mo = 2.500 + 2.000 → Mo=3.292.88 Bs
n j−1 n j+1 0.0475+0.0312
+
c j−1 c j+1
Veamos si este valor cumple con el principio en base al cuál se estima el valor modal, ya
que la clase modal se puede dividir en dos mitades, una que va de 2.500 a 3.500 y la otra
que va de 3.500 a 4.500. Efectivamente, Mo = 3.292.88 se halla en la mitad inferior de la
clase modal, toda vez que la frecuencia relativizada anterior es mayor que la frecuencia
relativizada posterior.
El modo puede calcularse en distribuciones con clases abiertas siempre que la clase que lo
contiene no sea la clase abierta.
Ejemplo 5
Se tienen las edades de 280 pacientes que han sido operados del corazón en un hospital
especializado en este tipo de personas.
Li Ls ni
Menos de 61 12
61 a 65 44
65 a 69 66
69 a 73 74
73 a 77 46
77 a 81 32
Más de 81 16
TOTAL 280
En este caso, al observar las clases abiertas se puede concluir que éstas tienen pocos datos,
por lo que se puede aplicar directamente la fórmula en la que no se necesita relativizar la
frecuencia, ya que los intervalos de todas las demás clases son constantes.
La clase con la frecuencia más alta es la cuarta, en la que las edades van de 69 a 73 años.
Luego, esa viene a ser la clase modal.
Aplicando la fórmula se tendrá:
n j+1 46
Mo = Lij + cj → Mo = 69 + 4 = 70.64 años
n j −1 +n j+1 66+ 46
31
Luego, la edad teórica en la que ha habido más intervenciones de corazón ha sido 70.64
años.
32
4.1.2. El recorrido intercuartílico
Se simboliza con RQ y es la diferencia entre Q3 y Q1, es decir:
RQ = Q3 - Q1
Mide la distancia que recorre la variable en el 50% central de la distribución. Se lo utiliza
para corregir la debilidad del rango o recorrido (R), ya que está muy influido por los
valores extremos de la distribución.
2
s =
∑ (x ¿¿ i−x )2
i=1
¿
n
Veamos una forma abreviada y rápida de calcular la varianza, desarrollando el cuadrado del
binomio de la fórmula anterior:
33
n n n n n
s2 =
∑ (x ¿¿ i−x )2 ∑ ( x2i −2 x xi + x 2 ) =
∑ xi2 –2
∑ xi +
∑ x 2 = x 2 - 2 x 2 + n x2
i=1
= i=1 ¿ i=1
x i=1 i=1
n
n n n n n
Finalmente, se tiene: s2 = x 2 - x 2 ( media de los cuadrados – cuadrado de la media)
Un principio estadístico muy utilizado que dice “la varianza de los datos de una
distribución es siempre igual a la media de los cuadrados de esos datos menos el cuadrado
de su media”
Ejemplo 1
Hagamos el cálculo de la varianza de las edades de los dos equipos de basquetbol del
ejemplo anterior:
20+22+24+ 27+22 115
Equipo A: 20; 22; 24; 27; 22 x A= = = 23
5 5
2 9+1+1+16+1 28
sA = ¿ ¿ = = = 5.6
5 5
Si calculamos con la forma abreviada sería:
2 2 2 2 2
2 20 +22 + 24 +27 +22 2 400+ 484+576+ 729+484 2.673
sA = −23 = – 529 = – 529 =
5 5 5
2.673
534.6 – 529 = s2A = – 529 = 534.6 – 529 = 5.6
5
Que resulta ser el mismo valor que el obtenido antes.
21+ 19+20+18+22 100
Equipo B: 21; 19; 20; 18; 22 x B= = = 20
5 5
2 1+ 1+ 0+4 +4 10
sB = ¿ ¿ = = =2
5 5
Si calculamos con la forma abreviada sería:
2 2 2 2 2
2 21 +19 +20 + 18 + 22 2 441+361+ 400+324+ 484
sB = −20 = – 400
5 5
2 2.010
sB = – 400 = 402 – 400 = 2
5
Que resulta ser el mismo valor que el obtenido antes.
Ahora, teniendo los valores de varianza de ambos equipos, comparamos los resultados
obtenidos:
2 2
s A = 5.6 s B = 2
Está claro que el equipo B muestra menos dispersión de sus datos que el equipo A.
34
- Si los datos están tabulados
En este caso, como ya se ha visto, la media, tanto para tablas de datos discretos como las de
m
s2 =
∑ ( y ¿¿ i− y)2 ni =∑
m
( y ¿¿ i¿¿ 2−2 y y i + y )ni
¿¿ =
2
∑ y i2 ni - 2
∑ yi ni +
i=1 i=1 i=1
¿ i=1 n y
n n n
m
y 2
∑ ni
i=1
n
2
ny
s2 = y 2 - 2 y 2 + → s2 = y 2 - y 2 ( media de los cuadrados – cuadrado de la media)
n
Ejemplo 2
Para la distribución de 25 familias por número de hijos que vimos antes, cuya media
aritmética es 2.12, el cálculo de la varianza se haría de la siguiente forma:
2 2
yi ni ( y ¿¿ i− y ) ni ¿ yi ni y i ni
0 2 8.9888 0 0
1 7 8.7808 7 7
2 6 0.0864 12 24
3 6 4.6464 18 54
4 4 14.1376 16 64
TOTAL 25 36.6400 53 149
n
s2 =
∑ ( y ¿¿ i− y)2 ni =
36.64
= 1.4656
i=1
¿ 25
n
35
También es posible calcular la varianza usando la forma abreviada para su cálculo. Con el
fin de aplicar esto se ha agregado una columna a la tabla que permite hallar el promedio de
los cuadrados y de ello restar el cuadrado de la media:
149
s2 = y 2 - y 2 → s2 = – 2.122→ s2 = 5.96 – 4.4944 = 1.4656
25
Que viene a ser el mismo resultado que el calculado con la fórmula original.
Ejemplo 3
Veamos cómo se calcula la varianza para la distribución de notas en Cálculo I de los 40
alumnos de Cálculo II, cuya media aritmética era y = 70.12.
2
Li Ls yi ni yi ni y i ni
51 a 60 55.5 11 610.5 33.882.75
60 a 69 64.5 9 580.5 37.442.25
69 a 78 73.5 8 588.0 43.218.00
78 a 87 82.5 8 660.0 54.450.00
87 a 96 91.5 4 366.0 33.489.00
Total 40 2,805.0 202.482.00
202.482
Usando s2 = y 2 - y 2 → s2= - 70.122 → s2= 145.24
40
4.2.2. El operador de la varianza
Es un símbolo (V) que colocado delante de la variable, o su transformación, nos recuerda
qué pasos hay que seguir con ésta, o su transformación, para calcular la varianza
correspondiente.
En el caso no tabulado V [xi] = M{[ xi – M ( x i )]2 }
En el caso tabulado: {
V [yi] = M [ y i – M ( y i ) ]
2
}
4.2.3. Propiedades de la varianza
Se apreciará cómo el operador de varianza facilita las demostraciones de las propiedades
más importantes de este indicador.
1ra. Propiedad: La varianza de una constante es cero
H/ V [k] = 0
36
D/ M{[k – M (k )]2 } = M{ [k – k ] 2 } = 0 s.q.d.
2da. Propiedad: Si se suma o resta una misma constante k a todos los valores de variable la
varianza original no se altera.
H/ V [yi ± k ] = V [yi]
D/ V [yi ± k ] = M{[ y i ± k – M ( yi ± k )] } = M{ ¿ ¿¿¿ 2 } = M{ ¿ ¿¿¿ 2 }
2
37
La varianza será s2 = M{[5 – M (5)]2 } = M{ [5 – 5]2 } = 0
Ejemplo 5
Dada la siguiente distribución del gasto semanal en consumo de carne de res de160
familias.
Li Ls yi ni yini yi2ni
100 140 120 33 3.960 475.200
140 180 160 49 7.840 1.254.400
180 220 200 41 8.200 1.640.000
220 300 260 27 7.020 1.825.200
300 400 350 10 3.500 1.225.000
TOTAL 160 30.520 6.419.800
El municipio ha otorgado a todas las familias un bono de Bs 50 para ser usado en consumo
de carne de res.
Se pide:
a.- Hallar la media y la varianza del gasto semanal original de las 160 familias
b.- Hallar la media y la varianza del nuevo gasto semanal de las 160 familias
Resolviendo:
a.- Con los datos originales:
m
y= ∑ y i n i = 30.520 = 190.75 Bs
i=1
160
n
6.419.800
s2 = y 2 - y 2 → s2= – 190.752= 3.738.19
160
b.- Con la nueva situación:
M [yi−50 ¿ = y −¿ 50 = 190.75 – 50 = 140.75 Bs
V [yi−50 ¿ = V [yi¿ = 3.738.19
Se observa que la media disminuye, pero la dispersión, medida por la varianza, se
mantiene.
Ejemplo 6
Se tiene la siguiente tabla que muestra la distribución de los salarios mensuales de los
trabajadores de una industria:
Li Ls yi ni yini yi2ni
2.000 4.000 3.000 62 186.000 558.000.000
4.000 6.000 5.000 72 360.000 [Link]
6.000 10.000 8.000 55 440.000 [Link] 38
10.000 15.000 12.500 36 450.000 [Link]
15.000 25.000 20.000 25 500.000 [Link]
TOTAL 250 1.936.000 [Link]
Ha concluido una negociación salarial en la que empresario y trabajadores han acordado un
incremento del 3.5% más un bono de 150 Bs a todos.
Se quiere calcular el nuevo promedio que ganarán los trabajadores y cómo se verá alterada
la dispersión de los datos como consecuencia de lo acordado.
Calculemos la media y la varianza antes del incremento.
m
Estratos 1 2 3 4 5 …… L Total
n(j) n(1) n(2) n(3) n(4) n(5) …… n(L) n
ȳ(j) ȳ(1) ȳ(2) ȳ(3) ȳ(4) ȳ(5) …… ȳ(L)
ȳ(j) n(j) ȳ(1) n(1) ȳ(2) n(2) ȳ(3) n(3) ȳ(4) n(4) ȳ(5) n(5) …… ȳ(L) n(L) ∑ ȳ(j) n(j)
2 2 2 2 2 2 2
s( j) s(1 ) s
(2) s(3 ) s(4) s(5 ) s(L)
39
Para poder calcular la varianza total (de los n datos) tenemos que definir previamente dos
conceptos:
a.- La intervarianza
Se la simboliza con s2b , mide la dispersión existente entre los estratos y viene a ser la
varianza de las medias de los estratos, es decir:
L
s
2
b = V[ȳ(j)] =
∑ ( ȳ ( j)− ȳ )2 n( j)
J=1
n
b.- La intravarianza
Se la simboliza con s2w , mide la dispersión existente dentro de los estratos y viene a ser la
media de las varianzas de los estratos, es decir:
L
2
s = M [s
w
2
]=
∑ s2( j) n( j)
( j) J=1
n
Se puede demostrar que la varianza global, o de todos los datos, es la suma de la
intervarianza y la intravarianza, es decir:
s2 ¿ s2b + s2w
Li Ls yi ni yini yi2ni
16 20 18 14 252 4536
20 24 22 16 352 7744
24 28 26 20 520 13520
28 32 30 16 480 14400
32 36 34 14 476 16184
36 40 38 10 380 14440
40 50 45 7 315 14175
50 60 55 3 165 9075
TOTAL 100 2940 94074
40
m
Media y (1) =
∑ y i n i = 252+ 352+ 520 = 1.124 = 22.48
i=1
50 50
n
4.536+7.744 +13.520
Varianza s2(1) = - 22.482= 10.6496
50
Estrato 2: Tamaño n(2) = 16+14+10 = 40
6
Media y (2) =
∑ y i n i = 480+ 476+380 = 1.336 = 33.40
i= 4
40 40
n
14.400+16.184+14.440
Varianza s2(2) = - 33.402= 10.04
40
Estrato 3: Tamaño n(3) = 7+3 = 10
8
Media y (3) =
∑ y i n i = 315+165 = 480 = 48.00
i=7
10 10
n
14.175+9.075
Varianza s2(1) = - 482= 21.00
10
Resumiendo, tenemos lo siguiente:
Estratos 1 2 3 Total
n(j) 50 40 10 100
ȳ(j) 22.48 33.40 48.00
2
s( j) 10.6496 10.04 21.00
41
L
42
64.9392 11.4408
1= +
76.38 76.38
100% = 85.02% + 14.98%
Está claro que el mayor aporte a la dispersión lo ha hecho la dispersión entre los estratos
mientras que la dispersión dentro de los estratos ha tenido un aporte bastante menor.
Finalmente, se debe tomar nota de dos aspectos que conlleva el cálculo de la varianza de
una distribución:
- Su valor tendría que ser expresado en unidades de medida de la variable elevadas al
cuadrado, ya que es eso lo que resulta cuando se efectúan todos los pasos para su
cálculo. No obstante, la varianza en sí misma tiene mucha utilidad en el análisis
estadístico.
- Por sí solo el valor de varianza que se obtiene no puede decir mucho sobre las
características de una distribución. Sin embargo, cuando se lo compara con valores
obtenidos para distribuciones semejantes o referidas al mismo tipo de variable que se
analiza, es capaz de permitir obtener conclusiones válidas, porque es claro que a mayor
varianza corresponde una mayor dispersión y a menor varianza una menor dispersión.
43
D/ Dado que V [yi ± k ] = V [yi] entonces √ V [ y i ± k ]=¿ √ V [ y i] = s [yi] s.q.d.
3ra. Propiedad: Si todos los valores de variable se multiplican por una misma constante (k),
la desviación típica o estándar original queda multiplicada por esa constante.
H/ s [kyi] = k s [yi]
D/ Dado que V [kyi] = k 2 V [yi] entonces √ V [ky i]=¿ √ k 2 V [ y i] = k s [yi] s.q.d.
Propiedad combinada: Si se multiplican todos los valores de variable por una misma
constante k' y al resultado se suma o resta otra constante k , la desviación típica o estándar
original queda únicamente multiplicada por la constante k’ ya que la constante que suma o
resta k” no altera la dispersión original.
H/ s [k' yi± k ] = k' s [yi]
D/ V [k' yi± k ] = k ' 2 V [yi] entonces √ V ¿ ¿ √ k ' 2 V [ y i]= k ' s [yi] s.q.d.
44
Ejemplo 5
Para la distribución de edades de 100 personas que asisten a un gimnasio cuya media era
y = 29.40 años y su varianza s2 = 76.38, la desviación típica o estándar resultante será:
s = √ 76.38 = 8.74 años
45
Para la distribución de 25 familias por número de hijos, que vimos antes, cuya media
aritmética es 2.12 hijos y cuya desviación típica es 1.21 hijos, el coeficiente de variación
será:
1.21hijos
C.V. = = 0.5708 o 57.08%
2.12hijos
Se puede concluir que la dispersión relativa es más alta que baja, luego la media no tiene
una buena representatividad de los valores observados.
Ejemplo 2
Para la distribución de notas en Cálculo I de los 40 alumnos de Cálculo II, cuya media
aritmética era y = 70.12 puntos y la desviación típica o estándar 12.05 puntos, el coeficiente
de variación será:
12.05 puntos
C.V. = = 0.1708 o 17.18%
70.12 puntos
La dispersión relativa es baja, la media es representativa de la distribución.
Ejemplo 3
Para la distribución del gasto semanal en consumo de carne de res de160 familias, cuya
media era y = 190.75 Bs y su desviación típica 61.14 Bs, el coeficiente de variación será:
61.14 Bs
C.V. = = 0.3205 o 32.05%
190.75 Bs
La dispersión relativa es baja, la media aritmética tiene cierta representatividad.
Ejemplo 4
Para la distribución de los salarios mensuales de los 250 trabajadores de una industria, cuya
media era 7.744 Bs y cuya desviación típica o estándar era 5.103.18 Bs, el coeficiente de
variación será:
5.103 .18 Bs
C.V. = = 0.6590 o 65.90%
7.744 .00 Bs
La dispersión relativa es alta, la media aritmética tiene poca representatividad.
Ejemplo 5
Para la distribución de edades de 100 personas que asisten a un gimnasio cuya media era y
= 29.40 años y su desviación típica o estándar 8.74 años, el coeficiente de variación será:
8.74 años
C.V. = = 0.2973 o 29.73%
29.40 años
46
La dispersión relativa es baja, la media tiene representatividad.
Ejemplo 6
Se ha medido y pesado a 80 jóvenes de un colegio, con los siguientes resultados:
Estaturas en centímetros: y = 164,33 cm s = 10.75 cm
Pesos en kilogramos: y = 58.25 kg s = 7.43 kg
Se desea saber en cuál de las dos distribuciones la media aritmética tiene mayor
representatividad.
Hallamos los coeficientes de variación correspondientes:
10.75 cm
Estaturas: C.V. = = 0.0654 o 6.54%
164.33 cm
7.43 kg
Pesos: C.V. = = 0.1276 o 12.76%
58.25 kg
En ambos casos las dispersiones relativas son bajas, por lo que sus correspondientes medias
son representativas de sus correspondientes distribuciones. No obstante, la distribución de
estaturas tiene una dispersión relativa menor con relación a la distribución de pesos, por lo
que la media de las estaturas tiene mayor representatividad que la media de los pesos.
Con este último ejemplo se ha mostrado que el coeficiente de variación puede medir
dispersiones relativas que se pueden, a su vez, comparar con las de otras distribuciones
aunque se refieran a diferentes variables ambas, inclusive aunque se trate de poblaciones
diferentes pero que interesa compararlas.
47
xi −x 1 1
M[zi] = M[ ] = M[ x i−x ] = [0] = 0 s.q.d
s s s
2
1 1 1 s
V[zi] = 2 V[ i ] = 2 {
x −x V [ x i ] −V [ x ] }= s 2 { V [ x i ]−0 } = 2 =1 s.q.d.
s s s
Su mayor utilidad será vista cuando se aborden temas de la inferencia estadística, en la
segunda parte de esta materia.
Por ahora veamos algunos ejemplos de aplicación práctica de su uso.
Ejemplo 1
Han rendido la prueba del primer parcial 50 alumnos que llevan Matemáticas y Física, entre
otras materias. Las notas en Matemáticas han tenido una media de 56.25 con una varianza
de 90.25 mientras que en Física el promedio ha sido 63.75 con una varianza de 43.56.
Una alumna llamada Juana ha obtenido una nota de 64 en Matemáticas y 66 en Física. ¿En
cuál de las materias tiene una mejor posición relativa respecto a sus compañeros?
Datos:
xi −x 64−56.25
Matemáticas: x = 56.25 s2 =90.25 s= √ 90.25 = 9.5 zi = = = 0.82
s 9.5
xi −x 66−63.75
Física: x = 63.75 s2 =43.56 s= √ 43.56 = 6.6 zi = = = 0.34
s 6.6
Conclusión: Ha tenido una mejor posición relativa en Matemática que en Física
Ejemplo 2
A 80 personas que postularon a un cargo se les ha planteado 100 preguntas de cultura
general y 100 preguntas de destreza sobre el cargo al que postulan. En cultura general el
promedio de respuestas ha sido 60.75 con una varianza de 75.69. En destreza para el cargo
el promedio de respuestas ha sido 54.46 con una varianza de 57.76. Mario, un postulante al
cargo, ha obtenido 57 en cultura general y 52 en destreza para el cargo y quiere saber en
cuál de los dos tipos de pruebas tiene una mejor posición relativa.
Datos:
xi −x 57−60.75
Cultura general: x = 60.75 s2 = 75.69 s = √ 75.69 = 8.7 zi = = = - 0.43
s 8.7
xi −x 52−54.46
Destreza: x = 54.46 s2 = 57.76 s = √ 57.76 = 7.6 zi = = = - 0.34
s 7.6
48
Conclusión: Ha tenido una mejor posición relativa en destreza para el cargo que en cultura
general, ya que - 0.34¿−0.43 .
Este tipo de medidas se preocupan por la forma o apariencia que tienen las distribuciones
en su sentido horizontal. Desde esa perspectiva, en general se distinguen tres tipos o
formas que adoptan las distribuciones unimodales (que son las que más se presentan). En el
gráfico que se muestra a continuación se aprecian las curvas de frecuencias de esos tres
tipos de distribuciones:
- Las que tienen asimetría negativa o hacia la izquierda, que son dispersas en los valores
bajos y concentradas en los valores altos. Un ejemplo de este tipo sería la distribución de
infartos cardíacos por edades.
- Las que tienen asimetría positiva o hacia la derecha, que son concentradas hacia los
valores bajos y dispersas hacia los valores altos. Un ejemplo de este tipo sería la
distribución de personas según sus ingresos.
- Las que tienen simetría, es decir son dispersas en los valores bajos y altos y concentradas
en los valores centrales. Este tipo de distribuciones se presentan, por ejemplo, cuando a
grandes poblaciones de personas se mide su peso o sus estaturas o se somete a un examen
de conocimientos.
Asimetría positiva o
Asimetría negativa o Simetría perfecta hacia la derecha
hacia la izquierda
Mo Me 𝑦 ̅
y Me Mo y =Me=Mo
49
correspondiente al punto más alto de la distribución. Cuando la distribución tiene asimetría
negativa o hacia la izquierda la media aritmética se ubica a la izquierda del modo. Cuando
la distribución tiene asimetría positiva o hacia derecha la media aritmética se ubica a la
derecha del modo. Cuando la distribución es simétrica la media aritmética y el modo
coinciden en el mismo valor.
La mediana (Me) en distribuciones unimodales y moderadamente asimétricas, se ha podido
ver, empíricamente, que se ubica entre la media aritmética y el modo, aproximadamente a
un tercio de la distancia entre ellas.
A partir de esta observación empírica Karl Pearson, un estadístico inglés, planteó el
siguiente coeficiente de asimetría que lleva su nombre:
x−Mo
A=
s
Que puede tener tres posibilidades:
- Si A ¿ 0 la distribución tiene asimetría positiva o hacia la derecha
- Si A<¿ 0 la distribución tiene asimetría negativa o hacia la izquierda
- Si A = 0 la distribución es simétrica
Para los casos en los que no se conoce o la media aritmética o el modo de una distribución
se plantea, a partir de la relación empírica entre los tres indicadores, la siguiente relación:
1
Me = y - ( y -Mo)
3
Que permite hallar el indicador que no se conoce con un simple despeje y, posteriormente,
hallar el coeficiente de asimetría correspondiente.
Ejemplo 1
Para la distribución de pesos (en kg) de 150 personas que asisten a un gimnasio:
yi yini 2
Li Ls ni y i ni
50 58 54 30 1.620 87.480
58 66 62 33 2.046 126.852
66 74 70 39 2.730 191.100
74 82 78 27 2.016 164.268
82 90 86 21 1.806 155.316
TOTAL 150 10.218 725.016
50
Se trata de ver cuál es la asimetría de la distribución
m
Hallamos la media: y =
∑ y i n i = 10.218 = 68.12 kg
i=1
150
n
n j+1 27
Hallamos el modo: Mo = Lij + cj → Mo = 66 + 8 = 69.6 kg
n j −1 +n j+1 27+33
725.016
Hallamos la varianza: s2 = y 2 - y 2 → s2= – 68.122= 193.11
150
Hallamos la desviación típica s = √ 193.11 = 13.90
x−Mo 68.12−69.6
Hallamos el coeficiente de asimetría de Pearson: A = = = - 0.11
s 13.90
Conclusión: La distribución de los pesos de las 150 personas que asisten al gimnasio tiene
asimetría negativa o hacia la izquierda.
Ejemplo 2
Para la distribución de los ingresos mensuales de 125 empleados de un banco:
ni 2
Li Ls yi ni yini y i ni
ci
2.100 2.500 2.300 19 0.0475 43.700 100.510.000
2.500 4.500 3.500 26 0.0130 91.000 318.500.000
4.500 7.500 6.000 30 0.0100 180.000 [Link]
7.500 10.000 8.750 24 0.0096 210.000 [Link]
10.000 15.000 12.500 16 0.0032 200.000 [Link]
15.000 20.000 17.500 8 0.0016 140.000 [Link]
20.000 30.000 25.000 4 0.0004 100.000 [Link]
TOTAL 125 964.700 [Link]
Hallamos la media: y =
∑ y i n i = 964.700 = 7.717.60 Bs
i=1
125
n
Hallamos el modo:
51
n j+1
c j+1 0.0130
Mo = Lij + cj → Mo = 2.100 + 400 → Mo=2.500Bs
n j−1 n j+1 0.0000+0.0130
+
c j−1 c j+1
10.786 .510.000
Hallamos la varianza s2 = y 2 - y 2 → s2= – 7.717 .602= [Link]
125
Hallamos la desviación típica s = √ 26.730 .730.24 = 5.170.18
x−Mo 7.717 .60−2.500
Hallamos el coeficiente de asimetría de Pearson: A = = = 1.01
s 5.170 .18
Conclusión: La distribución de los ingresos mensuales de los 125 empleados del banco
tiene asimetría positiva o hacia la derecha.
Ejemplo 3
La distribución de estaturas de 150 atletas presenta una media aritmética de 172.50 cm, una
mediana de 171 cm y una varianza de 6.25. ¿cuál es el signo y grado de asimetría que
presenta esa distribución?
s =6.25 → s = √ 6.25 = 2.5 Mo =?
2
Los datos son: y = 172.5 Me = 171.0
Usando la relación empírica hallamos el valor de Mo:
1 1 1 1
Me = y - ( y -Mo) → 171.0 = 172.5 - (174.5 -Mo) → -1.5 = -57.5 + Mo→ 56 =
3 3 3 3
Mo
Mo = 3 (56) → Mo = 168
x−Mo 172.5−168
A= = = 1.8
s 2.5
Luego, la distribución de estaturas de los 150 atletas tiene asimetría positiva o hacia la
derecha.
Gráficamente el ejercicio planteado se presentaría de la siguiente forma:
52
6.- Medidas de apuntamiento
En este caso lo que se Mo Me 𝑦 ̅
buscar es la forma o apariencia
que desde el punto de 168 171 172.5 vista vertical tienen las
distribuciones. Se trata de medir el grado en el que los
datos de una distribución se hallan o no concentrados en torno a su media aritmética.
Al apuntamiento se lo suele llamar también “curtosis”. Gráficamente se distinguen tres
tipos
de distribuciones según cuál es su grado de apuntamiento o concentración.
Existen indicadores o medidas que permiten encontrar valores que dan una buena pauta
sobre el grado de apuntamiento que presenta una distribución unimodal.
Uno de los más usados es el coeficiente de curtosis de Fischer que se presenta así:
53
n
1
∑ ( y − y ) 4 ni
K = n i=1 i
s4
Ejercicio 1
2 4
Li Ls yi ni yini y i ni yi - y ¿ - y ¿ ni ( y i− y) ni
18 - 24 21 9 189 3.969 -27 -243 4.782.969
24 - 30 27 17 459 12.393 -21 -357 3.306.177
30 - 36 33 27 891 29.403 -15 -405 1.366.875
36 - 42 39 36 1.404 54.756 -9 -324 236.196
42 - 48 45 44 1. 980 89.100 -3 -132 3.564
48 - 54 51 32 1.632 83.232 3 96 2.592
54 - 60 57 30 1.710 97.470 9 270 196830
60 - 66 63 25 1.575 99.225 15 375 1.265.625
66 - 72 69 18 1.242 85.698 21 378 3.500.658
72 - 78 75 9 675 50.625 27 243 4.782.969
78 - 84 81 3 243 19.683 33 99 3.557.763
TOTAL 250 12.000 625.554 33 0 23.002.218
Hallamos la media y =
∑ y i n i = 12.000 = 48.00
i=1
250
n
54
625554
Hallamos la varianza s2 = y 2 - y 2 → s2= – 48 2= 198.22
250
Calculamos la desviación típica s = √ 198.22 = 14.08
Aplicamos la fórmula y hallamos el coeficiente de asimetría de Fischer:
n
1 1
∑
K = n i=1
(
4
y i − y ) ni
→ K= 250
(23.002 .218)
= 2.34
4
s 4
14.08
Luego, podemos concluir que la distribución es del tipo platicúrtica, es decir tiene poca
concentración en torno a la media aritmética.
55