0% encontró este documento útil (0 votos)
35 vistas55 páginas

Introducción a la Estadística Descriptiva

Este documento describe los conceptos básicos de la estadística descriptiva. Explica que la estadística descriptiva se utiliza para describir conjuntos de datos, mientras que la estadística inferencial se utiliza para extraer conclusiones sobre poblaciones más amplias. Luego detalla cuatro tipos principales de medidas estadísticas descriptivas: medidas de posición central, medidas de dispersión, medidas de asimetría y medidas de apuntamiento. Finalmente, se enfoca en explicar en detalle el cálculo y uso de la media aritmética, la med
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
35 vistas55 páginas

Introducción a la Estadística Descriptiva

Este documento describe los conceptos básicos de la estadística descriptiva. Explica que la estadística descriptiva se utiliza para describir conjuntos de datos, mientras que la estadística inferencial se utiliza para extraer conclusiones sobre poblaciones más amplias. Luego detalla cuatro tipos principales de medidas estadísticas descriptivas: medidas de posición central, medidas de dispersión, medidas de asimetría y medidas de apuntamiento. Finalmente, se enfoca en explicar en detalle el cálculo y uso de la media aritmética, la med
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Tema 2: ESTADÍSTICA DESCRIPTIVA

1.- Introducción
Hemos visto que la Estadística, atendiendo al alcance de sus conclusiones, se clasifica en:
- Estadística Descriptiva, cuando se encarga de describir un hecho o fenómeno a partir del
conjunto de datos que se han obtenido para explicarlo, siendo que sus conclusiones son
válidas para ese conjunto de datos observados.

- Estadística Deductiva o Inferencial, también conocida como Inferencia Estadística,


cuando, tomando partes o porciones de la población, busca obtener conclusiones que
pretenden ser válidas para el conjunto total de los datos que abarcan los hechos o
fenómenos que interesan estudiar.

En este capítulo nos centraremos en la parte descriptiva de la Estadística, que resulta ser de
mucha utilidad, porque saber describir adecuadamente un hecho o fenómeno a partir de la
información que sobre él se obtiene es crucial para entender todas las principales
características que lo conforman y para hacer análisis de lo que interesa estudiar o
investigar.

En este sentido, la Estadística ha desarrollado un conjunto de medidas o indicadores


resumidos, a los que también se conocen como “estadígrafos”, que permiten sistematizar su
caracterización rápida y precisa. Nos ocuparemos de ellos en este tema

2.- Principales tipos de medidas o indicadores resumidos

En general, existen cuatro tipos de medidas que caracterizan los aspectos sobresalientes de
un conjunto de datos cuantitativos referidos a un hecho o fenómeno que interesa estudiar o
analizar:

- Medidas de posición o de tendencia central

Tratan de mostrar, con uno o pocos valores, hacia qué valores tiende el conjunto de los
datos. Es decir, son uno o pocos valores que buscan representar las características
principales de toda la población observada.

1
Entre los principales tipos de medidas, indicadores o estadígrafos de posición o de
tendencia central, se tienen, entre otros: la media aritmética, la media geométrica, la media
armónica la mediana, el modo o valor modal, y los cuantiles o fractiles.

- Medidas de dispersión o variabilidad

Que complementan a las medidas de posición, mostrando cómo se agrupan o dispersan los
datos en torno a ellas. Es decir, muestran si los datos son o no homogéneos alrededor de los
valores que pretenden resumirlos.

Entre los principales tipos de medidas de dispersión o variabilidad se tiene: la varianza, la


desviación típica o estándar, la desviación mediana y el coeficiente de variación.

- Medidas de asimetría

Tienen que ver con la forma horizontal que muestran los datos. Es decir, se trata de mostrar
si los datos se agrupan hacia los valores bajos de la distribución o lo hacen hacia los valores
altos, o se distribuyen simétricamente a lo largo de la escala en la que se los mide. Existen
medidas de asimetría como las de Pearson y las de Bowley.

- Medidas de apuntamiento

Tienen que ver con la forma vertical que muestran los datos. Es decir, se trata de mostrar si
los datos tienen una forma apuntada, semiapuntada, o aplanada. Existen medidas que
permiten caracterizar ese aspecto, como el coeficiente de curtosis.

3.- Medidas de posición o de tendencia central

Como ya hemos indicado, son uno o pocos valores que resumen las características
sobresalientes de una distribución. Veamos los principales indicadores, tomando en
consideración su utilidad práctica en el análisis.

3.1. La media aritmética

Es el estadígrafo por excelencia. Viene a ser el indicador más utilizado en la Estadística.

Dados n datos: x1, x2, x3, x4, x5,….,xn

2
La media aritmética de ellos, a la que simbolizaremos con x , es igual a

x=
x1 +¿ x +x + x + x +…+ x
2 3 4 5 n ∑
¿ → x = i=1
xi
n
n

La media aritmética de n datos viene a ser aquel único valor que reemplazando a los datos
originales reproduce su suma. Esto se demuestra despejando la sumatoria en la última
n
relación: ∑ x i = n x = x + x + x + ….+ x
i=1

Veamos el cálculo de la media aritmética en el caso de los dos ejemplos que estamos
manejando, uno para variable discreta y el otro para variable continua:

Con variable discreta:

n = 25 X: Número de hijos (variable discreta)

x1 = 2 x2 = 1 x3= 3 x4 = 0 x5= 2 x6= 2 x7= 1 x8= 2 x9= 4 x10= 0

x11 = 3 x12 = 2 x13= 1 x14= 2 x15= 4 x16= 1 x17= 3 x18= 1 x19= 3 x20= 4

x21 = 1 x22 = 2 x23=3 x24= 4 x25= 3

2+ 1+ 3+0+2+…+ 1+ 2+3+4 +3 54
x= = = 2.16
25 25

Que nos dice que, en promedio, las 25 familias analizadas tienen 2.16 hijos. Este valor, que
es el promedio de los datos que se han generado con una variable discreta, como es el
número de hijos en las familias, resulta que se expresa con fracciones decimales, lo cual
parece contradictorio. Sin embargo, es bueno aclarar que los indicadores en general, como
es en este caso la media aritmética, tienen la connotación de variables continuas, toda vez
que, si se los usa como medida comparativa tiene sentido su valor fraccionado, por
ejemplo, podríamos tener otro conjunto de 25 familias cuya media aritmética del número
de hijos que tienen resulta ser 2.36 y, en consecuencia, podemos concluir que las familias
de nuestro ejemplo tienen menos hijos que los de este último grupo de familias.

Con variable continua:

3
n = 40 X: Nota en Cálculo I (variable continua)
x1 = 53 x2 = 61 x3= 73 x4 = 60 x5= 82 x6= 92 x7= 71 x8= 57 x9= 64 x10=66
x11 =53 x12 = 82 x13= 71 x14= 62 x15= 54 x16= 81 x17=73 x18= 82 x19= 55 x20= 65
x21= 67 x22= 77 x23= 66 x24= 78 x25=93 x26= 52 x27= 63 x28= 55 x29= 86 x30= 57
x31= 95 x32= 62 x33=84 x34= 65 x35= 72 x36= 77 x37= 90 x38= 82 x39= 60 x40= 59

53+61+73+60+82+ …+77+90+ 82+60+59 2.798


x= = = 69.95
40 40

Este resultado nos muestra que los 40 alumnos de Cálculo II vencieron Cálculo I con un
promedio de 69.95 puntos. Este resultado se puede comparar con promedios obtenidos por
otros grupos de alumnos y sacar las conclusiones que correspondan.

Si los datos están tabulados, se pueden presentar dos circunstancias:

- Caso de tablas con variable discreta

Cuando la variable tabulada Y es una variable discreta, la tabla correspondiente se presenta


de un modo general así

yi ni
y1 n1
y2 n2
y3 n3
….. …
ym nm
TOTAL n

La media aritmética, a la que simbolizaremos con y , se calcularía, siguiendo lo que hemos


visto en el caso no tabulado, de la siguiente manera:

y 1+ y 1+ …+ y 1+ y 2+ y 2+ …+ y 2 + y 3+ y 3+ …+ y 3 +. … .+ y m + y m + …+ y m
y=
n

Esto podría expresarse de la siguiente forma:

y 1 n1 + y 2 n2 + y 3 n3 +… ..+ y m nm
y=
n

4
Que, finalmente, se puede expresar de modo resumido así:

y =∑
yi ni
i=1
n

En esta fórmula se puede ver que, para el cálculo de la media aritmética, hay que
multiplicar cada uno de los valores de variable por sus correspondientes frecuencias, sumar
los resultados y el total se debe dividir entre el valor de n.

En la estadística se dice “ponderar” cuando se multiplica y “desviar” cuando se resta.


Podemos decir en este caso que la fórmula anterior tendría los siguientes pasos: ponderar
(los valores de variable por sus frecuencias) sumar (las ponderaciones hechas) y dividir (el
total de la suma entre el total poblacional).

Veamos cómo procedemos con nuestro ejemplo de los 25 hogares:

yi ni yi ni
0 2 0
1 6 6
2 7 14
3 6 18
4 4 16
Total 25 54

y =∑
yi ni 54
i=1 → y= = 2.16
25
n

Se puede ver que el valor que se ha obtenido para la media aritmética es el mismo que se
obtuvo cuando se hizo el cálculo con los datos no tabulados. Esto se debe a que con las
tablas de este tipo no se pierde ninguno de los datos originales, simplemente se los dispone
mejor para un cálculo más ágil.

- Caso de tablas con variable continua

En este caso se pierde la individualidad original de los datos ya que se los ha tenido que
agrupar en “m” clases. De esta forma, si se quiere hallar la media aritmética dada una tabla

5
construida para variable continua, en realidad lo que se hace es una buena aproximación a
su verdadero valor, que sólo se conseguiría si se trabaja con los datos originales, se los
suma y se divide entre n.


La fórmula que hemos deducido para el caso de tablas con variable discreta: y = i=1
yi ni
,
n
es también válida para este caso, con la única condición de que los valores de y i sean los
valores centrales o marcas de clase de la distribución.

Veamos cómo se aplica esta fórmula para nuestro ejemplo de variable continua:

Li Ls yi ni yi ni
51 a 60 55.5 11 610.5
60 a 69 64.5 9 580.5
69 a 78 73.5 8 588.0
78 a 87 82.5 8 660.0
87 a 96 91.5 4 366.0
Total 40 2,805.0

y =∑
yi ni 2805
i=1 → y = = 70.12
40
n

Esto nos indica que el promedio de notas con el que pasaron en Calculo I los 40 alumnos de
Cálculo II es de 70.12 puntos.

Se reitera que esta es una aproximación del verdadero valor, que sólo se obtiene cuando no
se pierde la identidad de ningún dato. Sin embargo, se puede observar que el valor obtenido
(70.12) y el verdadero valor (69.95) son muy próximos.

Está claro que la media aritmética sólo se puede calcular cuando se tiene un número finito
de elementos de la población objeto de estudio. También es posible calcular cuando se
tienen tablas de distribución de variable continua, con la condición de que no tengan clases
abiertas porque en ese caso no se podría determinar el valor de la marca de clase (y i) de la
clase abierta (primera y/o última clase). En los casos de tablas con límites diferenciados hay

6
necesidad de establecer lo que se llaman “fronteras reales” de las clases que conforman la
distribución.

Veamos cómo se procede con el ejemplo que presentamos en el tema 1:

Distribución de personas por pesos en kilogramos

Pesos Li Ls yi ni yini
50 a 59 49.5 59.5 54.5 58 3.161.00
60 a 69 59.5 69.5 64.5 72 4.644.00
70 a 79 69.5 79.5 74.5 86 6.407.00
80 a 89 79.5 89.5 84.5 64 5.408.00
90 a 99 89.5 99.5 94.5 47 4.441.50
100 a 120 99.5 120.5 110.0 33 3.630.00
TOTAL 360 27.691.50
En esta tabla, para su mejor comprensión, se han hecho las siguientes adiciones:

- Se han conformado los nuevos límites inferior y superior a través del cálculo de las
“fronteras reales”, que consiste en restar media unidad de medida de la variable al Li y
sumar media unidad de medida de la variable al Ls de cada una de las clases, de esta
manera se ha dado “continuidad” a la variable.

- Con esos nuevos límites se han calculado las marcas de clase yi correspondientes.

- Se ha agregado una columna con los valores de y i ponderados por sus correspondientes
frecuencias ni , conformando así la columna yini .

Con esos valores se procede al cálculo de la media aritmética:

y =∑
yi ni 27.691.50
i=1 → y = = 76.92 kg
360
n

Se puede concluir que el peso promedio de los 360 atletas es 76.92 kilogramos.

- El operador de la media
Es un símbolo (M) que, colocado delante de la variable, o una transformación de ésta, nos
recuerda qué pasos hay que seguir con la variable, o su transformación, para obtener su
correspondiente media aritmética.
En el caso de la variable no tabulada (X) nos recuerda lo siguiente:

7
n

M [xi] =
∑ xi → Sumar (los datos) y dividir (entre n)
i=1
n
En el caso de la variable tabulada (Y) nos recuerda lo siguiente:
m

M [yi] =
∑ yi ni Ponderar (los datos por ni ) sumar (las ponderaciones) y dividir (la
i=1

n
suma total entre n)
Este operador permite demostrar de una manera sencilla algunas propiedades que tiene la
media aritmética que es importante conocer para abreviar tiempo y procesos en su cálculo.
- Propiedades de la media aritmética
1ra. Propiedad: La media de una constante, sea que se trate de un solo valor o del mismo
que se repite, es la misma constante.
H/ M[k] = k
n

D/ M[k] =
∑ ki ¿
k +k + k +…+ k nk
= =k s.q.d.
i=1
n n
n

2da. Propiedad: La media de los desvíos de la variable respecto a su propia media es cero
H/ M[yi - y ¿=¿ 0
m m m

D/ M[yi - y ¿ =
∑ ( y i− y )ni =
∑ y i ni
-
y ∑ ni
= y−
ny
= y− y = 0 s.q.d.
i=1 i=1 i=1
n
n n n
3ra. Propiedad: Si se suma o resta una misma constante (k) a todos los valores de variable
la media de los datos originales queda suma o restada por esa constante.
H/ M[yi± k ¿=¿ y ± k
m m m

D/ M[yi
∑ ( y i ± k )n i = ∑ y i ni ± k ∑ ni = y ± kn = y ± k s.q.d.
± k ¿= i=1 i=1 i=1
n
n n n
4ta. Propiedad: Si se multiplican o se dividen todos los valores de variable por una misma
constante k, la media de los datos originales queda multiplicada o dividida por esa
constante.
H/ M[kyi¿=¿ k y

8
m m

D/ M[kyi¿ =
∑ (ky i)n i =k
∑ y i ni = k y s.q.d.
i=1 i=1
n n
En este caso, se debe aclarar que la constante k puede representar tanto la multiplicación
propiamente dicha como la división, ya que dividir por un número no es sino multiplicar
por el valor inverso de ese número. Por ejemplo, dividir entre 5 es lo mismo que multiplicar
por 1/5.
Propiedad combinada: Se puede dar la situación de que se apliquen, simultáneamente, la
3ra. y 4ta. propiedades. Esta propiedad la enunciamos así:
Si se multiplican todos los valores de variable por una misma constante k´ y al resultado se
suma o resta otra constante k´´, la media original queda multiplicada por la constante k´ y a
este resultado se agrega o resta la constante k´´.
H/ M[k´yi± k ´ ´ ¿ = k´ M[ yi¿ ± k ´ ´
m m m

D/ M[k´yi± k ´ ´ ¿ =
∑ (k ´ y i± k ´ ´ )ni = k ´ ∑ y i ni ± k ´ ´ ∑ ni = k´ y ± k ´ ´ s.q.d
i=1 i=1 i=1
n n n
5ta. Propiedad: El promedio de los cuadrados de los desvíos de una variable respecto a
cualquier valor constante k pasa por un mínimo cuando la constante es igual a la media de
esa variable.
H/ M[(yi - k)2] = Mínimo (siempre que k = y )
m

D/ Si hacemos: Z=
∑ ( y i −k )2 ni
i=1
n
Hallamos la primera derivada de Z respecto a k y la igualamos a 0 para hallar un máximo o un
mínimo:
m m m m
dZ 2 ∑ ( y i−k)ni ∑ ( y i −k )n i ∑ y i ni ∑ k ni = 0 → y=k
= i=1 = 0→ i=1 =0 i=1 i=1 s.q.d.
dyi → −¿
n n n n
Se puede comprobar que si se calcula la segunda derivada de Z respecto a k el resultado es positivo.
Luego, queda demostrado que la función, a la que hemos llamado Z, pasa por un mínimo sólo
cuando se calculan los cuadrados de los desvíos respecto a la media aritmética y no lo hace con
respecto a ningún otro valor.

9
Esta propiedad da origen a un indicador llamado “varianza” que es, precisamente, el
promedio de los cuadrados de los desvíos de la variable respecto a su media aritmética, que
se simboliza con s2 y que será visto al estudiar los estadígrafos de dispersión.
6ta. Propiedad
Se la conoce también como propiedad de la “media de estratos” y se la enuncia así:
Si una población se clasifica en L subpoblaciones (a las que se llama estratos) y de cada
una de ellas se conoce su tamaño y su correspondiente media aritmética, la media
aritmética de toda la población ( y ¿ viene a ser un promedio de las medias aritméticas de las
subpoblaciones, previamente ponderadas por sus correspondientes tamaños.


Estratos 1 2 3 4 5 L Total


n(j) n(1) n(2) n(3) n(4) n(5) n(L) n


ȳ(j) ȳ(1) ȳ(2) ȳ(3) ȳ(4) ȳ(5) ȳ(L)


ȳ(j) n(j) ȳ(1) n(1) ȳ(2) n(2) ȳ(3) n(3) ȳ(4) n(4) ȳ(5) n(5) ȳ(L) n(L) ∑ ȳ(j) n(j)

En este caso la media aritmética de toda la población resulta ser:
L

y= ∑ y ( j)n ( j)
J=1
n
Que no precisa demostración, pues vimos que, cuando se trata de hallar la media de
variable continua, primero hay que ponderar los valores de variable (en este caso las
y ( j) ¿por sus frecuencias (en el caso presente por las n(j)), luego hay que sumar esos
productos y el resultado hay que dividir entre n (n= n(1) + n(2) + n(3) + …+ n(L) ) que es la
suma de los tamaños de los estratos.
Veamos algunos ejemplos para comprender mejor la aplicación de todas esas propiedades:
Ejemplo 1
Las edades de 6 niños de una guardería son 5; 5; 5; 5; 5; 5
5+5+5+5+5+5 30
La media aritmética de esas edades será: x= = =5
6 6

Ejemplo 2

10
Se tiene la siguiente distribución de las edades de 125 personas internadas por Covid 19 en
un hospital:

Li Ls yi ni yini yi - y (yi - y ) ni
20 a 30 25 8 200 -29.4 -235.2
30 a 40 35 14 490 -19.4 -271.6
40 a 50 45 26 1170 -9.4 -244.4
50 a 60 55 32 1760 0.6 19.2
60 a 70 65 28 1820 10.6 296.8
70 a 90 80 17 1360 25.6 435.2
TOTAL 125 6800 0

La media aritmética de las edades será:


m

∑ y i ni = 6800 = 54.4 años


y= i=1 125
n
En la penúltima columna se calculan los desvíos de la variable respecto de su media
aritmética.
En la última columna se ponderan los desvíos hallados en cada clase por sus
correspondientes frecuencias.
La suma de esta última columna es 0, como indica la segunda propiedad de la media
aritmética.
Ejemplo 3
Se han medido las estaturas en centímetros de 400 conscriptos que se han presentado para
hacer el servicio militar, con los siguientes resultados:

Li Ls yi ni yini
166 a 170 168 85 14.280
170 a 174 172 125 21.500
174 a 178 176 93 16.368
178 a 182 180 61 10.980
182 a 192 187 36 6.732
TOTAL 400 69.860

La media aritmética de esta distribución sería:


m

∑ y i ni = 69.860
y= i=1 400
n

11
y=¿ 174.65 centímetros
Resulta que, después de haber hecho la medición, se percatan de que la huincha que se usó
no tenía los primeros 4 centímetros; por lo que, hay necesidad de corregir el resultado
obtenido. Para ello, no es necesario volver a medir a todos, sino simplemente aplicar la
tercera propiedad de la media aritmética que nos dice:

M[yi± k ¿=¿ y ± k
En este caso, como se ha medido con 4 centímetros demás a cada conscripto, hay necesidad
de reducir esos 4 centímetros. En consecuencia, la verdadera media aritmética será:
M[yi−4 ¿=¿ y −4 = 174.65 – 4
M[yi−4 ¿=¿ 170.65 centímetros
Ejemplo 4
La distribución de los salarios mensuales de los 250 trabajadores de una fábrica es como
sigue:

Li Ls yi ni yini
2.000 a 2.500 2.250 20 45.000
2.500 a 3.000 2.750 64 176.000
3.000 a 4.000 3.500 88 308.000
4.000 a 6.000 5.000 54 270.000
6.000 a 10.000 8.000 24 192.000
TOTAL 250 991.000

La empresa ha iniciado una negociación salarial con sus trabajadores, quienes piden un
incremento salarial del 10% para todos. La empresa les hace una contraoferta consistente en
un incremento del 4% más un bono fijo de 120 Bs a cada uno. ¿Cuáles serían los nuevos
promedios salariales en ambas situaciones?
Partamos del cálculo de la media aritmética original:
m

∑ y i ni = 991.000
y= i=1 250
n
y=¿3.964 Bs
Con el requerimiento de los empleados el nuevo valor de la media sería:
M[1.10 yi¿ = 1.10 M[yi¿ = 1.10 (3.964) = 4.360.40 Bs
Con la propuesta de la empresa el nuevo valor de la media aritmética sería:

12
M[1.04 yi+120 ¿ = 1.04 M[yi¿ + 120= 1.04 (3.964) + 120 = 4.242.56 Bs
Se observa que los incrementos porcentuales se toman como un factor que multiplica,
mientras que los bonos fijos son una constante que suma.
Ejemplo 5

2 2 2
Li Ls yi ni yi ni (yi - ( y i− y) ni ( y i−69) ni ( y i−71) ni
y¿
51 a 60 55.5 11 610.5 - 2.351.19 2.004.75 2.642.75
14.62
60 a 64.5 9 580.5 - 5.62 284.26 182.25 380.25
69
69 a 73.5 8 588.0 3.38 91.40 162.00 50.00
78
78 a 82.5 8 660.0 12.38 1.226.12 1.458.00 1058.00
87
87 a 91.5 4 366.0 21.38 1.828.42 2.025.00 1681.00
96
Total 40 2805.0 5.781.38 5.832.00 5.812.00
Veamos cómo se usa la 5ta. propiedad aplicándola al caso de las notas en Cálculo I de los
40 alumno de Cálculo II, cuyo promedio era y=¿70.12. Para fines de una mejor
comprensión se presenta una tabla completa a la que se le adicionan columnas que permiten
respaldar la comprobación de la propiedad.

Luego, la media de los cuadrados de los desvíos de la variable respecto a su propia media
aritmética (s2) será:

13
m m

M[(yi - y )2] =
∑ ( y i − y)2 ni =
∑ ( y i −70.12)2 ni = 5.781.38 = 144.53
i=1 i=1
40
n n
Que viene a ser el menor valor que se puede obtener con esta forma de desvíos.
Para verificar esto, se han construido la penúltima y la última columna de la tabla en la que
se han calculado estos cuadrados de desvíos respecto a un valor menor al de la media
aritmética (69¿ 70.12) y un valor mayor al de la media aritmética (71 ¿ 70.12 ¿ y en ambos
casos la suma de los cuadrados de los desvíos respecto a ellos resulta mayor que dicha
suma de los cuadrados de los desvíos respecto a la media aritmética. En consecuencia, si se
calculan los promedios, también se dará esta situación:
5.781.38
M[(yi - y )2] = = 144.53
40
5.832
M[(yi - 69)2] = = 145.80
40
5.812
M[(yi - 71)2] = = 145.30
40
De esta manera, hemos comprobado la 5ta. propiedad en un ejemplo concreto, reiterando
que su aplicación da origen a la varianza (s 2) que, junto a la media aritmética, tiene mucho
uso en la Estadística.

Ejemplo 6
Se ha clasificado una población de 160 atletas por sus correspondientes pesos en
kilogramos y se los ha dividido en 4 estratos o subpoblaciones, conformando la siguiente
tabla:

Estratos 50 a 60 60 a 70 70 a 80 80 a 90 TOTAL
(3) (4)
(1) (2)

Tamaños n(j) 56 45 34 25 160

14
Medias y ( j) 57.3 63.4 76.5 82.8

Se pide:
Hallar el peso promedio de los 160 atletas.
Utilizamos la fórmula de la media ponderada para realizar este cálculo.
L

y= ∑ y ( j)n ( j) → y = ( 57.3 ) (56 ) +( 63.4 )( 45 ) +( 76.5 ) ( 34 ) +(82.8)(25)= 10.732 = 67.07 kg


J=1
160 160
n
Es bueno dejar claro que, en casos como éste, frecuentemente se tiende a calcular la media
aritmética simplemente sumando las medias de los estratos y dividiendo entre el número de
estratos, a esto se suele llamar “media simple” en contraposición a la “media ponderada”
que sí da un valor preciso de la media aritmética de los datos originales.
Para este ejemplo la media simple sería:
L

∑y
Media simple = J=1 ( j) 57.3+63.4+76.5+ 82.8 =
280
= 70 kg
= 4
L 4
Este valor tiende a mostrar el punto medio de la distribución de la variable (el punto medio
entre el valor más pequeño que es 50 y el valor más alto que es 90, sería precisamente 70).
En cambio, la media ponderada muestra una mejor evaluación de lo que ocurre con los
estratos. Si se observan los tamaños de los estratos, está claro que el primer y segundo
tienen más tamaño que los otros dos, por lo que la media aritmética debe estar hacia la
mitad inferior de la distribución antes que hacia los valores altos, lo cual muestra, para este
caso concreto, la media ponderada ya que 67.08 es menor que dicho punto medio 70.

3.2. La media geométrica


Dados n datos no tabulados: x 1 , x 2 , x 3 , ⋯ , xn , la media geométrica de ellos, a la que
simbolizaremos con G, viene a ser la raíz enésima del producto de los n datos. Es decir:
G = √n x 1 × x 2 × x 3 × ⋯ × x n
La media geométrica viene a ser aquel número que reemplazando a cada uno de los n datos
reproduce su producto. Esto se comprueba de la siguiente forma:

15
Gn = x 1 × x2 × x 3 × ⋯ × xn → G×G ×G × ⋯ G=x 1 × x 2 × x 3 × ⋯ × x n
La media geométrica se usa principalmente en los casos de poblaciones que demuestran
que tienen un ritmo de crecimiento que sigue una progresión geométrica.
Ejemplo 1
La población de una ciudad el año 2016 fue de 1.147.328 y el año 2020 alcanzó a
1.396.847. Se quiere saber cuál habría sido su población el año 2018.
Datos: x 1=1.147 .328 (año 2016) x 2=1.396 .847(año 2020) G = ? (año 2018)
G ¿ √ x 1 × x 2= √ 1.147 .328 ×1.396 .847 = 1.265.955 habitantes
Ejemplo 2
Si con la misma información se quisiera proyectar la población para el año 2024, se debería
trabajar así:
Datos: x 1=1.147 .328(año 2016) G=1.396 .847 (año 2020) x 2 = ? (año 2024)
G ¿ √ x 1 × x 2 → 1.396.847 =√ 1.147 .328 × x 2 → x 2 = 1.700.631 habitantes
Se podrían hacer estimaciones y proyecciones de población para años intermedios o
posteriores, teniendo el cuidado de que, en el fondo, se trata de ir calculando términos de
una progresión geométrica, buscando que la secuencia de años se acomode a esa
posibilidad.
Como desafío se propone al estudiante hacer una proyección de la población de esa ciudad
para los años 2021 y 2023.

3.3. La media armónica


Dados n datos no tabulados: x 1 , x 2 , x 3 , ⋯ , xn , la media armónica de ellos, a la que
simbolizaremos con H, viene a ser el inverso de la media aritmética de los valores
recíprocos de los datos. Para su cálculo seguiremos los siguientes pasos:

1ro. Se calculan los valores recíprocos de los datos:


1 1 1 1
; ; ; … …;
x1 x 2 x 3 xn
2do. Se halla la media aritmética M( x−1 ¿ de esos recíprocos:

16
1 1 1 1
+ + +…+
M (x ¿ = x1 x2 x3
−1
xn
n
3ro. Se invierte esa media de recíprocos y se obtiene la media armónica:
n n
1 → n
H= −1 = 1 1 1 1 H=
M (x ) x + x + x +…+ x
1 2 3 n
∑ x1
i=1 i

Existen casos de proporcionalidad inversa en las que se aplica la media armónica. Veamos
algunos ejemplos.
Ejemplo 1
Un grupo A de trabajadores pavimentan 150 metros de una avenida con una productividad
de 10 metros diarios. Otro grupo B, de igual cantidad de trabajadores, hace los mismos 150
metros con una productividad de 15 metros por día. Se quiere determinar la productividad
diaria de los 2 grupos durante la pavimentación de los 300 metros de pavimento.
La productividad diaria tiene que ser el total de metros pavimentados dividido entre el total
de días utilizados en ese trabajo.
150
Grupo A: metros pavimentados 150 metros; días utilizados = 15
10
150
Grupo B: metros pavimentados 150 metros; días utilizados = 10
15
300 m
Luego la productividad diaria de todos será: = 12 metros por día
25 dias
Si calculáramos la media aritmética de las productividades diarias por grupo tendríamos:
10+15
x= = 12.5 metros por día
2
Con esta productividad en los 25 días empleados debían haber pavimentado 12.5
×25=312.5 metros y no los 300 metros que realmente pavimentaron.
Veamos ahora qué pasa si calculamos la media armónica de las productividades:
n 2 2
n 300
H= → H = 1 1 = 15+10 = = 12 metros por día
∑ x1 +
10 15 150
25
i=1 i

Que es lo que efectivamente ha sido la productividad entre los dos grupos.

17
Ejemplo 2
Un auto está siendo probado en tres tramos equidistantes de una carretera (tramo AB, tramo
BC y tramo CA, cada uno de ellos con una distancia de 300 kilómetros). El tramo AB lo
hace a 75 km/h, el tramo BC a 50 km/h y el tramo CA a 60 km/h. ¿Cuál ha sido la
velocidad promedio empleada en los 3 tramos?
Construyamos una tabla con la información que tenemos:

Tramo Distancia Velocidad Tiempo


AB 300 km 75 km/h 4 horas
BC 300 km 50 km/h 6 horas
CA 300 km 60 km/h 5 horas
TOTAL 900 km ? 15 horas

A partir de esta tabla se observa que se han recorrido 900 km en total y se ha empleado 15
horas en todo el recorrido, luego la velocidad promedio empleada en los 3 tramos es:
900 km
Velocidad promedio = = 60 km/h
15 h oras
Si hallamos la media aritmética de las velocidades empleadas en los tres tramos
tendríamos:
75+50+60
x= = 61.67 km/h
3
Con esta velocidad promedio, dado el tiempo total que se ha empleado, tendría que haber
recorrido 61.67 ×15=¿ 925 km, cosa que no ha ocurrido.
Veamos qué sucede si empleamos la media armónica:
n 3 3
n 900
H= 1 → H = 1 1 1 = 4+6+ 5 = = 60 km/h
∑ xi
+ +
75 50 60 300
15
i=1

Que viene a ser exactamente la velocidad promedio con la que ha recorrido los 900 km.
Como desafío se propone al estudiante resolver este otro ejemplo:
Ejemplo 3
Una empresa tiene 3 tanques de 450 litros de capacidad cada uno. El primer tanque se llena
en 75 minutos con el grifo I. El segundo se llena en 90 minutos con el grifo II y el tercero
se llena en 50 minutos, con el grifo 3. ¿Cuál es el promedio de tiempo de llenado por
minuto de los 3 tanques?

18
Nota. - Es importante considerar que la media armónica es útil cuando los tiempos son
variables y las distancias constantes.
Finalmente es bueno aclarar que, a la media aritmética, la media geométrica y la media
armónica, se las conoce también como promedios. No obstante, cuando se hace alusión a la
“media” o al “promedio” sin aclarar si se trata específicamente de alguno de esos
indicadores, se asume que se está refiriendo a la media aritmética. Para designar a la media
geométrica o a la media armónica es necesario nombrarlas explícitamente.

3.4. La mediana
La simbolizaremos con Me y es el valor de variable que divide la población que se estudia
en dos partes igualmente numerosas. Es decir, es el valor de variable hasta el que llega una
mitad de las observaciones y a partir del cual se encuentra la otra mitad de ellas. También
se suele decir que es el valor de variable que supera a no más de la mitad de las
observaciones y es superado por no más de la otra mitad de éstas.
Viene a ser un indicador que está menos sujeto a los datos extremos (muy altos o
demasiado bajos) que presenta una distribución y tiene la virtud de que se la puede calcular
aún en el caso de distribuciones con clases abiertas.
En su cálculo vamos a distinguirlas siguientes situaciones:

- Si los datos no están tabulados


Se supone que se trata de pocos datos, en cuyo caso hay que ordenarlos en forma
ascendente o descendente (por lo general de la primera forma) y aquel dato que ocupe la
posición central será el valor de la Me.
Ejemplo 1
Se tienen las edades de 9 niños: 5; 9; 7; 8; 4; 6; 12; 3; 4
Para calcular la mediana se ordena esas edades de menor a mayor: 3; 4; 4; 5; 6; 7; 8;
9; 12
Es claro que el valor 6 ocupa el lugar central, luego la mediana es Me = 6 años.
Ejemplo 2
Los pesos (en kg) de 10 personas son:
77; 52; 61; 64; 93; 48; 59; 77; 63; 41

19
Para calcular la mediana se ordena esos pesos de menor a mayor:
41; 48; 52; 59; 61; 63; 64; 77; 77; 93
En este caso se presenta dos datos centrales, 61 y 63, que ocupan el 5to y el 6to lugar. Para
hallar la Mediana de la distribución, por convenio en la Estadística, se calcula el punto
medio de esos datos centrales (aunque resulte con fracción decimal)
61+ 63
Me = = 62 kg
2
- Si se trata de una tabulación de variable discreta
En este caso se tienen ordenados los datos, por lo que el cálculo de la Me consistirá en ver
cuál de las clases contiene al dato ubicado al centro de la distribución. Esto se consigue
trabajando con las frecuencias absolutas acumuladas y viendo cuál de ellas contiene a la
n
mitad de la población ( ). Veamos cómo se procede:
2
Ejemplo 3
Dada la tabla de distribución de 25 familias por número de hijos que vimos antes:

yi ni Ni
0 2 2
1 7 9
2 6 15
3 6 21
4 4 25
TOTAL 25

n 25
Para calcular la Me nos fijamos cuál es la mitad de la población estudiada = = 12.5,
2 2
buscamos en la columna de las frecuencias absolutas acumuladas cuál es la que contiene a
esa mitad (en este caso es N3= 15), luego el valor de la variable correspondiente y 3 = 2 es el
valor buscado. En consecuencia, podemos decir que la Me = 2 hijos.
- Si se trata de una tabulación de variable continua
En este caso se presentan los datos agrupados en clases, por lo que se pierde la identidad
individual de ellos. Si bien se puede deducir en qué clase de la distribución debe estar la
n
mediana calculando y buscando la frecuencia acumulada inmediata posterior a ese valor
2
para ubicar la clase en la que está la mediana. Es necesario realizar una interpolación.

20
Se usa la siguiente fórmula, que nace precisamente de un proceso de interpolación cuya
conformación se puede comprobar:
n
−N j−1
Me = Lij + cj 2
N j−N j−1
Donde:
Lij: Límite inferior de la clase en la que está la mediana
cj: Intervalo o amplitud de la clase en la que está la mediana
n
: Mitad de la población o universo en estudio
2
N j : Frecuencia acumulada de la clase de la mediana
N j−1 :Frecuencia acumulada de la clase anterior a la de la mediana
Se observa que Nj – Nj-1 = nj, por lo que podría colocarse ese valor en lugar de la diferencia.
Ejemplo 4
La siguiente es la distribución de las edades de 120 personas que trabajan en una industria:
Li Ls ni Ni
20 28 24 24
28 36 27 51
36 44 33 84
44 52 21 105
52 60 15 120
TOTAL 120

Se busca calcular la mediana y explicar su significado.


n 120
- Empezamos calculando la mitad del universo o población: = = 60
2 2
- Hallamos la frecuencia acumulada inmediata posterior: N3 = 84. Luego, la tercera clase
es la que, en teoría, contiene a la mediana.
- Aplicamos la fórmula:
n
−N j−1 60−51
Me = Lij + cj 2 →Me = 36 + 8
84−51
N j−N j−1
9
Me = 36 + 8 →Me = 38.18 años
33

21
Teóricamente, desde 20 hasta 38.18 años tendría la mitad de los 120 trabajadores y desde
38.18 hasta 60 años la otra mitad.
Es bueno ver en un gráfico cómo se aprecia el cálculo que se hace con la fórmula de
interpolación que se ha presentado.
A continuación, se presenta el gráfico correspondiente:

Polígono acumulativo de frecuencias


Distribución de 120 trabajadores de una industria
140
por edades
120 Polígono acumulativo
100

80
Ni

60

40

20

0
20 28 36 44 52 60
Edades en años

En este gráfico del polígono acumulativo de frecuencias hemos marcado la mitad de la


n
población ( =60) y hemos seguido con la línea punteada oscura hasta tocar el polígono,
2
luego hemos bajado con la línea punteada oscura hasta el eje de abscisas y podemos ver que
el valor de la variable coincide con mucha aproximación a los 38.18 años, que
corresponden al valor teórico de la mediana obtenidos con la fórmula.
Ejemplo 5
Los siguientes son los ingresos mensuales de 250 empleados de un banco:
Li Ls ni Ni
Menos de 2.100 38 38
2.100 4.500 52 90
4.500 7.500 61 151
7.500 10.000 47 198
10.000 15.000 32 230
15.000 20.000 13 243
Más de 20.000 7 250
TOTAL 250

22
Se busca calcular la mediana y explicar su significado.
En este caso tenemos los siguientes datos para aplicar la fórmula:
n 250
=¿ = 125 Nj = 151 Nj-1 = 90 cj = 3.000 nj = 61 Lij = 4.500
2 2

n
−N j−1 125−90
Me = Lij + cj 2 →Me = 4.500 +3.000 → Me = 6.221.31 Bs
151−90
N j−N j−1
Esto significa que un 50% de los empleados llega a ganar mensualmente hasta 6.221.31 Bs
y el otro 50% gana desde ese monto hasta 20.000 Bs.
Se observa en este ejemplo que se ha podido calcular la mediana, a pesar de que la
distribución tiene clases abiertas, cosa que no se hubiera podido hacer si se hubiera querido
calcular la media aritmética. La única situación en la que no se puede calcular la mediana
es cuando la clase en la que teóricamente está es una clase abierta.
3.5. Los cuantiles o fractiles
Son valores de variable que dividen el universo en partes igualmente numerosas. La
mediana, en la práctica, viene a ser un cuantil o fractil porque es el valor de variable que
divide el universo en dos partes igualmente numerosas.
Se puede hablar de diversidad de tipos de cuantiles o fractiles, sin embargo, nos
detendremos en los que son de uso más frecuente.
Un aspecto que hay que tomar en cuenta es que, cuando hay interés de dividir la población
en partes igualmente numerosas, es porque se tiene una buena cantidad de datos y estos han
tenido que ser reducidos en su presentación a tablas con m clases. Es decir, se ha tenido que
construir tablas con las características que hemos visto en el caso del manejo de tablas con
datos agrupados.
Aprovechando que se ha podido deducir la fórmula para encontrar el valor teórico de la
mediana con:
n
−N j−1
Me = Lij + cj 2
N j−N j−1
Se puede plantear fórmulas específicas para encontrar cualquier tipo de cuantil o fractil.
Entre los tipos de cuantiles o fractiles más utilizados se tiene: los cuartiles, los deciles y los
percentiles.

23
3.5.1. Los cuartiles
Son 3 valores de variable (Q1,Q2 y Q3) que dividen al universo en cuatro partes igualmente
numerosas. Un cuartil cualquiera, por ejemplo el tercero (Q3), se caracteriza por superar a
¾ de las observaciones y ser superado por ¼ de éstas. Entre un cuartil y otro consecutivo
siempre queda un 25% de las observaciones. Su fórmula general es:
Kn
−N j−1
QK = Lij + cj 4 (K=1,2,3)
N j−N j−1
Kn
Para calcular el valor de cada cuartil previamente hay que calcular y buscar la
4
frecuencia acumulada inmediata posterior para así determinar la clase (j) en la que se halla
y aplicar la fórmula anotada.
Hay que tomar en cuenta que el segundo cuartil (Q 2) viene a ser la mediana de la
distribución y que entre Q1 y Q3 se encuentra el 50% central de la distribución.
3.5.2. Los deciles
Son 9 valores de variable (D1,D2,D3,… y D9) que dividen al universo en diez partes
igualmente numerosas. Un decil cualquiera, por ejemplo el séptimo (D 7), se caracteriza por
superar a 7/10 de las observaciones y ser superado por 3/10 de éstas. Entre un decil y otro
consecutivo siempre queda un 10% de las observaciones. Su fórmula general es:
Kn
−N j−1
DK = Lij + cj 10 (K=1,2, 3,…,9)
N j−N j−1
Hay que tomar en cuenta que el quinto decil (D 5) viene a ser la mediana de la distribución
y, por ejemplo, que entre D1 y D9 se encuentra el 80% central de la distribución.
3.5.3. Los centiles o percentiles
Son 99 valores de variable (P1, P2, P3,…, y P99) que dividen al universo en cien partes
igualmente numerosas. Un percentil cualquiera, por ejemplo el 73 (P 73), se caracteriza por
superar a 73% de las observaciones y ser superado por el 27% de éstas. Entre un percentil y
otro consecutivo siempre queda un 1% de las observaciones. Su fórmula general es:
Kn
−N j−1
PK = Lij + cj 100 (K=1,2,3, …..,99)
N j−N j−1

24
Kn
Para calcular el valor de cada percentil previamente hay que calcular y buscar la
100
frecuencia acumulada inmediata posterior para así determinar la clase (j) en la que se halla
y aplicar la fórmula anotada.
Hay que tomar en cuenta que P50 = D5 = Q2= Me y que entre P1 y P99, por ejemplo, se halla
el 98% central de la distribución.
Veamos un ejemplo en el que aplicaremos lo que se ha visto.
Ejemplo 6
Se tiene la siguiente distribución de ingresos familiares (en Bs) de 400 hogares:

Li Ls ni Ni
2.000 3.000 47 47
3.000 5.000 61 108
5.000 7.500 75 183
7.500 10.000 61 244
10.000 15.000 49 293
15.000 20.000 37 330
20.000 25.000 30 360
25.000 30.000 22 382
30.000 50.000 18 400
TOTAL 400

Se pide:
a) Hallar el Q3 y explicar su significado
b) Hallar el D2 y explicar su significado
c) Hallar el P63 y explicar su significado
d) ¿Entre qué niveles de ingreso familiar se halla el 60% central de la distribución?
e) ¿Desde qué nivel de ingreso familiar tiene el 5% superior de la distribución?
Vamos resolviendo.
a) La fórmula para hallar el Q3 es:
3n
−N j−1
Q3 = Lij + cj 4
N j−N j−1
3 n 3(400)
Calculamos = = 300
4 4

25
Buscamos la frecuencia inmediata posterior N6 = 330, luego la clase en la que, teóricamente
debe estar el Q3 es la sexta. Con ella, aplicamos la fórmula:
300−293
Q3 = 15.000 + 5.000 = 15.945.95 Bs
330−293
El 75% de las familias tiene un ingreso que llega hasta 15.945.95 Bs
b) La fórmula para hallar el D2 es:
2n
−N j−1
D2 = Lij + cj 10
N j−N j−1
2n 2(400)
Calculamos = = 80
10 10
Buscamos la frecuencia inmediata posterior N 2 = 108, luego la clase en la que,
teóricamente, debe estar el D2 es la segunda. Con ella, aplicamos la fórmula:
80−47
D2 = 3.000 + 2.000 = 4.081.97 Bs
108−47
El 20% de las familias tiene un ingreso que llega hasta 4.081.97 Bs
c) La fórmula para hallar el P63 es:
63 n
−N j−1
P63 = Lij + cj 100
N j−N j−1
63 n 63(400)
Calculamos = = 252
100 100
Buscamos la frecuencia inmediata posterior que viene a ser N 5 = 293, luego la clase en la
que, teóricamente, debe estar el P63 es la quinta. Con ella, aplicamos la fórmula:
252−244
P63 = 10.000 + 5.000 = 10.816.33 Bs
293−244
El 63% de las familias tiene un ingreso que llega hasta 10.816.33 Bs
d) Si consideramos los deciles de la distribución, el 60% central se halla entre el D 2 y el D8.
Para ubicar cómo se define esto, nos ubicamos al medio con el D 5. Cuando bajamos un 30%
(la mitad de 60%) desde ese valor llegamos al D 2 y cuando subimos un 30% (la otra mitad
de 60%) llegamos hasta el D8.
2n
−N j−1 80−47
D2 = Lij + cj 10 → D2 = 3.000 + 2.000 = 4.081.97 Bs
108−47
N j−N j−1

26
8n
−N j−1 320−293
D8 = Lij + cj 10 → D8 = 15.000 + 5.000 = 18.648.65 Bs
330−293
N j−N j−1
Luego, el 60% central de la distribución tiene sus ingresos familiares entre 4.081.97 Bs y
18.648.65 Bs.
e) Para hallar desde qué nivel de ingreso familiar tiene el 5% superior de la distribución
debemos hallar el P95 ya que este es el nivel de ingreso hasta el que llega el 95% de las
familias y desde el que se encuentra el 5% restante, que es justamente lo que nos interesa:
95 n
−N j−1 380−360
P95 = Lij + cj 100 → P95 = 25.000 + 5.000 = 29.545.45 Bs
382−360
N j−N j−1
Es decir, el 5% superior de la distribución de ingresos familiares percibe desde 29.545.45
Bs hasta 50.000.00 Bs.

3.6. El modo, la moda o valor modal


Se simboliza con Mo y es el valor de variable que aparece más veces en una distribución.
También se puede decir que es el valor de variable que tiene la frecuencia más alta.
Como es lógico suponer, pueden existir distribuciones de variable que no sólo presentan un
valor con la frecuencia más alta, sino que pueden haber 2 o más valores de variable que
tengan, al mismo tiempo, la frecuencia más alta que se observa en una distribución. Como
no se puede desestimar ninguna de esos valores, se dice que las distribuciones pueden ser:
unimodales si poseen un solo valor modal, bimodales si tienen dos valores modales o
plurimodales si tienen más de dos valores modales. En su cálculo se pueden presentar las
siguientes situaciones:

- Si los datos no están tabulados


Se supone que se trata de pocos datos. Se los ordena y se cuentan los valores repetidos.
Aquel o aquellos valores que se repitan más veces serán el (o los) valor(es) modal(es).
Ejemplo 1
Las notas de 10 alumnos en un examen en que se califica del 1 al 7, han sido:
4; 6; 5; 3; 3; 5; 7; 4: 2; 5
Ordenando los datos se tiene:

27
2; 3; 3; 4; 4; 5; 5; 5; 6; 7
Se observa que el valor que aparece más veces es 5. Luego, el modo es Mo = 5 puntos
- Si se trata de una tabulación de variable discreta
Para hallar el modo o valor modal de la distribución suficiente es fijarse cuál es la
frecuencia absoluta simple (ni) más alta, el valor de variable que le corresponde será el Mo
de la distribución. Si aparecen dos o más valores de variable con la frecuencia más alta se
marcarán cada una de ellas como el modo de la distribución y se hace constar que ésta es
bimodal.
Ejemplo 2
Dada la tabla de distribución de 25 familias por número de hijos que vimos antes:

yi ni
0 2
1 7
2 6
3 6
4 4
TOTAL 25

Para hallar el modo de la distribución observamos que n2 = 7 es la frecuencia más alta de la


distribución, en consecuencia, el valor de variable correspondiente es el modo de la
distribución, es decir Mo = 1 hijo.
Si hubiera habido más clases con ese valor de frecuencia más alto, hubiéramos mostrado
cada uno de sus valores como los valores modales de la distribución.

- Si se trata de una tabulación de variable continua


En este caso, como ya sabemos, se pierde la individualidad de los datos, por lo que es
necesario acudir a algún mecanismo que nos permita hallar el o los valores modales
teóricos de la distribución. Pueden, a su vez, presentarse dos situaciones:

a.- Que sea una distribución con intervalo de clase (ci) constante
Para estimar el modo, se acude a un principio razonablemente lógico que dice “Si la
frecuencia posterior a la de la clase en la que se encuentra el modo (clase modal) es mayor
que la frecuencia de la clase anterior es razonable suponer que el modo se halle en la mitad

28
superior de dicha clase modal. Si la frecuencia anterior a la de la clase modal es mayor que
la frecuencia de la clase posterior es razonable suponer que el modo se halle en la mitad
inferior de la clase modal”. En base a ese principio se plantea la siguiente fórmula
n j+1
Mo = Lij + cj
n j −1 +n j+1
Donde:
Lij es el límite inferior de la clase modal, c j es el intervalo de clase constante de la
distribución, n j+1 es la frecuencia absoluta simple de la clase posterior a la modal y n j−1 es
la frecuencia absoluta simple de la clase anterior a la modal
Ejemplo 3
La siguiente es la distribución de pesos (en kg) de 150 personas que asisten a un gimnasio:
Li Ls ni
50 58 30
58 66 33
66 74 39
74 82 27
82 90 21
TOTAL 150
Buscamos la frecuencia más alta, que es n3 = 39. Es decir, la clase modal es la que
comprende los valores 66 a 74, el intervalo de clase constante es cj = 8, la frecuencia de la
clase anterior esn j−1 = 33 y la frecuencia de la clase posterior esn j+1 = 27.
Aplicamos la fórmula:
n j+1 27
Mo = Lij + cj → Mo = 66 + 8 = 69.6 kg
n j −1 +n j+1 27+33
Si observamos ese valor vemos lo siguiente:
La clase modal va de 66 a 74. Esa clase la podemos dividir en dos mitades, una que va de
66 a 70 (mitad inferior) y otra que va de 70 a 74 (mitad superior). El valor Mo = 69.6
hallado se encuentra en la mitad inferior, cumpliendo lo que señala el principio usado para
estimar el modo teórico. En este ejemplo la frecuencia anterior ( n j−1 = 33) es mayor que la
frecuencia posterior (n j+1 = 27), luego es razonable esperar que el Mo se halle en la mitad
inferior de la clase modal.
b.- Que sea una distribución con intervalo de clase (ci) no constante

29
En este tipo de situaciones es necesario “relativizar” las frecuencias por sus
ni
correspondientes intervalos de clase ( ), ya que puede darse el caso de que una clase tenga
ci
la frecuencia más alta porque tiene un intervalo de clase más amplio que las demás. En
consecuencia, una vez relativizadas las frecuencias, se define como la clase modal no la que
tenga la frecuencia absoluta simple más alta sino más bien la que tenga la frecuencia
ni
relativizada ( ) más alta. De esta manera, la fórmula anterior del Mo sufre una
ci
modificación y se la plantea así:
n j+1
c j+1
Mo = Lij + cj
n j−1 n j+1
+
c j−1 c j+1
Veamos cómo se aplica.
Ejemplo 4
Los siguientes son los ingresos mensuales de 300 empleados de un banco:

ni
Li Ls ni
ci
2.100 2.500 19 0.0475
2.500 4.500 98 0.0490
4.500 7.000 78 0.0312
7.000 10.000 51 0.0170
10.000 15.000 34 0.0068
15.000 20.000 16 0.0032
20.000 30.000 4 0.0004
TOTAL 300

Para calcular el valor modal de la distribución se ha agregado una columna que contiene las
frecuencias relativizadas. En ellas se observa que la frecuencia relativizada más alta es la de

30
la segunda clase. En consecuencia, la clase modal es aquella en la que los ingresos van de
2.500 a 4.500. Aplicamos la fórmula y hallamos el valor modal teórico de la distribución:
n j+1
c j+1 0.0312
Mo = Lij + cj → Mo = 2.500 + 2.000 → Mo=3.292.88 Bs
n j−1 n j+1 0.0475+0.0312
+
c j−1 c j+1
Veamos si este valor cumple con el principio en base al cuál se estima el valor modal, ya
que la clase modal se puede dividir en dos mitades, una que va de 2.500 a 3.500 y la otra
que va de 3.500 a 4.500. Efectivamente, Mo = 3.292.88 se halla en la mitad inferior de la
clase modal, toda vez que la frecuencia relativizada anterior es mayor que la frecuencia
relativizada posterior.
El modo puede calcularse en distribuciones con clases abiertas siempre que la clase que lo
contiene no sea la clase abierta.
Ejemplo 5
Se tienen las edades de 280 pacientes que han sido operados del corazón en un hospital
especializado en este tipo de personas.

Li Ls ni
Menos de 61 12
61 a 65 44
65 a 69 66
69 a 73 74
73 a 77 46
77 a 81 32
Más de 81 16
TOTAL 280

En este caso, al observar las clases abiertas se puede concluir que éstas tienen pocos datos,
por lo que se puede aplicar directamente la fórmula en la que no se necesita relativizar la
frecuencia, ya que los intervalos de todas las demás clases son constantes.
La clase con la frecuencia más alta es la cuarta, en la que las edades van de 69 a 73 años.
Luego, esa viene a ser la clase modal.
Aplicando la fórmula se tendrá:
n j+1 46
Mo = Lij + cj → Mo = 69 + 4 = 70.64 años
n j −1 +n j+1 66+ 46

31
Luego, la edad teórica en la que ha habido más intervenciones de corazón ha sido 70.64
años.

4.- Medidas de dispersión o variabilidad


Son valores que muestran cómo se agrupan los datos en torno a las medidas de posición o
tendencia central. Si los datos se agrupan homogéneamente en torno al valor que busca
representarlos, entonces tendrán menor dispersión o variabilidad y, consiguientemente, ese
valor tendrá una mayor representatividad para representarlos. Obviamente, si los datos
están dispersos o hay mucha variabilidad entre ellos la representatividad será menor.
Entre las medidas de dispersión más utilizadas tenemos:

4.1. Medidas de dispersión absoluta


Entre ellas destacan:
4.1.1. El rango o recorrido
Que, como ya se ha visto mide la distancia que recorre la variable entre el valor más
pequeño observado y el valor más alto. Esta medida tiene la debilidad de que está muy
influenciada por los valores extremos (muy altos o bajos).
Ejemplo 1
Se tienen las edades de los jugadores de dos equipos de básquetbol:
Equipo A: 20; 22; 24; 27; 22 Equipo B: 21; 19; 20; 18; 22
Se trata de ver cuál equipo presenta mayor dispersión o variabilidad, para ello calculamos
el rango o recorrido (R) de cada uno:
RA = 27 – 20 = 7 RB = 22 -18 = 4
Está claro que el equipo que presenta mayor dispersión de sus datos es el equipo A.
Pero, siguiendo con este ejemplo, vamos a suponer que en el equipo B se lesiona el jugador
que tiene 20 años y en su lugar entra otro jugador que tiene 26 años, de manera que las
edades ahora en el equipo B serán:
Equipo B: 21; 19; 26; 18; 22
El nuevo rango o recorrido será RB = 26 -18 = 8
Vemos que un solo dato ha cambiado el rango o recorrido del equipo B duplicándolo y
volviendo a la distribución de edades de ese equipo como más dispersa que la del equipo A.

32
4.1.2. El recorrido intercuartílico
Se simboliza con RQ y es la diferencia entre Q3 y Q1, es decir:
RQ = Q3 - Q1
Mide la distancia que recorre la variable en el 50% central de la distribución. Se lo utiliza
para corregir la debilidad del rango o recorrido (R), ya que está muy influido por los
valores extremos de la distribución.

4.2. Medidas de dispersión promedio


Entre las más utilizadas se tiene:
4.2.1. La varianza
Es el más importante de los estadígrafos de dispersión ya que da origen a muchos
instrumentos de análisis que utiliza la Estadística.
Como se vio al estudiar la media aritmética, su 5ta. propiedad nos dice “el promedio de los
cuadrados de los desvíos de la variable respecto a su propia media aritmética es un
mínimo”.
La expresión de esa propiedad da lugar a la varianza, que se simbolizará con s 2 y, en
consecuencia, se la calcula de la siguiente forma:
- Si los datos no están tabulados
Dados n datos x1; x2; x3; ……; xn
n

Se halla la media de esos datos: x =


∑ xi
i=1
n
Se calculan los desvíos de cada valor de variable (xi) respecto a dicha media: ¿ ¿ - x )
Se elevan al cuadrado esos desvíos y se suman:
Finalmente, se divide esa sumatoria entre n y se obtiene la varianza
n

2
s =
∑ (x ¿¿ i−x )2
i=1
¿
n
Veamos una forma abreviada y rápida de calcular la varianza, desarrollando el cuadrado del
binomio de la fórmula anterior:

33
n n n n n

s2 =
∑ (x ¿¿ i−x )2 ∑ ( x2i −2 x xi + x 2 ) =
∑ xi2 –2
∑ xi +
∑ x 2 = x 2 - 2 x 2 + n x2
i=1
= i=1 ¿ i=1
x i=1 i=1
n
n n n n n
Finalmente, se tiene: s2 = x 2 - x 2 ( media de los cuadrados – cuadrado de la media)
Un principio estadístico muy utilizado que dice “la varianza de los datos de una
distribución es siempre igual a la media de los cuadrados de esos datos menos el cuadrado
de su media”
Ejemplo 1
Hagamos el cálculo de la varianza de las edades de los dos equipos de basquetbol del
ejemplo anterior:
20+22+24+ 27+22 115
Equipo A: 20; 22; 24; 27; 22 x A= = = 23
5 5
2 9+1+1+16+1 28
sA = ¿ ¿ = = = 5.6
5 5
Si calculamos con la forma abreviada sería:
2 2 2 2 2
2 20 +22 + 24 +27 +22 2 400+ 484+576+ 729+484 2.673
sA = −23 = – 529 = – 529 =
5 5 5
2.673
534.6 – 529 = s2A = – 529 = 534.6 – 529 = 5.6
5
Que resulta ser el mismo valor que el obtenido antes.
21+ 19+20+18+22 100
Equipo B: 21; 19; 20; 18; 22 x B= = = 20
5 5
2 1+ 1+ 0+4 +4 10
sB = ¿ ¿ = = =2
5 5
Si calculamos con la forma abreviada sería:
2 2 2 2 2
2 21 +19 +20 + 18 + 22 2 441+361+ 400+324+ 484
sB = −20 = – 400
5 5
2 2.010
sB = – 400 = 402 – 400 = 2
5
Que resulta ser el mismo valor que el obtenido antes.
Ahora, teniendo los valores de varianza de ambos equipos, comparamos los resultados
obtenidos:
2 2
s A = 5.6 s B = 2
Está claro que el equipo B muestra menos dispersión de sus datos que el equipo A.

34
- Si los datos están tabulados
En este caso, como ya se ha visto, la media, tanto para tablas de datos discretos como las de
m

datos continuos, viene dada por: y =


∑ yi ni .
i=1
n
Al ser la varianza el promedio de los cuadrados de los desvíos de la variable respecto a su
m

propia media aritmética, su fórmula vendrá dada por: s2 =


∑ ( y ¿¿ i− y)2 ni
i=1
¿
n
Teniendo el cuidado de que, cuando se trabaja con variable continua, los valores de y i son
los valores centrales o marcas de clase de la distribución.
También en este caso se puede encontrar una forma abreviada del cálculo de s 2
desarrollando el cuadrado del binomio que se presenta en la fórmula.
m m m

s2 =
∑ ( y ¿¿ i− y)2 ni =∑
m
( y ¿¿ i¿¿ 2−2 y y i + y )ni
¿¿ =
2
∑ y i2 ni - 2
∑ yi ni +
i=1 i=1 i=1
¿ i=1 n y
n n n
m
y 2
∑ ni
i=1
n
2
ny
s2 = y 2 - 2 y 2 + → s2 = y 2 - y 2 ( media de los cuadrados – cuadrado de la media)
n
Ejemplo 2
Para la distribución de 25 familias por número de hijos que vimos antes, cuya media
aritmética es 2.12, el cálculo de la varianza se haría de la siguiente forma:

2 2
yi ni ( y ¿¿ i− y ) ni ¿ yi ni y i ni
0 2 8.9888 0 0
1 7 8.7808 7 7
2 6 0.0864 12 24
3 6 4.6464 18 54
4 4 14.1376 16 64
TOTAL 25 36.6400 53 149
n

s2 =
∑ ( y ¿¿ i− y)2 ni =
36.64
= 1.4656
i=1
¿ 25
n

35
También es posible calcular la varianza usando la forma abreviada para su cálculo. Con el
fin de aplicar esto se ha agregado una columna a la tabla que permite hallar el promedio de
los cuadrados y de ello restar el cuadrado de la media:
149
s2 = y 2 - y 2 → s2 = – 2.122→ s2 = 5.96 – 4.4944 = 1.4656
25
Que viene a ser el mismo resultado que el calculado con la fórmula original.
Ejemplo 3
Veamos cómo se calcula la varianza para la distribución de notas en Cálculo I de los 40
alumnos de Cálculo II, cuya media aritmética era y = 70.12.

2
Li Ls yi ni yi ni y i ni
51 a 60 55.5 11 610.5 33.882.75
60 a 69 64.5 9 580.5 37.442.25
69 a 78 73.5 8 588.0 43.218.00
78 a 87 82.5 8 660.0 54.450.00
87 a 96 91.5 4 366.0 33.489.00
Total 40 2,805.0 202.482.00

202.482
Usando s2 = y 2 - y 2 → s2= - 70.122 → s2= 145.24
40
4.2.2. El operador de la varianza
Es un símbolo (V) que colocado delante de la variable, o su transformación, nos recuerda
qué pasos hay que seguir con ésta, o su transformación, para calcular la varianza
correspondiente.
En el caso no tabulado V [xi] = M{[ xi – M ( x i )]2 }

En el caso tabulado: {
V [yi] = M [ y i – M ( y i ) ]
2
}
4.2.3. Propiedades de la varianza
Se apreciará cómo el operador de varianza facilita las demostraciones de las propiedades
más importantes de este indicador.
1ra. Propiedad: La varianza de una constante es cero
H/ V [k] = 0

36
D/ M{[k – M (k )]2 } = M{ [k – k ] 2 } = 0 s.q.d.
2da. Propiedad: Si se suma o resta una misma constante k a todos los valores de variable la
varianza original no se altera.
H/ V [yi ± k ] = V [yi]
D/ V [yi ± k ] = M{[ y i ± k – M ( yi ± k )] } = M{ ¿ ¿¿¿ 2 } = M{ ¿ ¿¿¿ 2 }
2

V [yi ± k ] = V [yi] s.q.d.


3ra. Propiedad: Si todos los valores de variable se multiplican por una misma constante (k),
la varianza original queda multiplicada por el cuadrado de esa constante.
H/ V [kyi] = k 2 V [yi]
D/ V [kyi] = M{[ky i – M (ky i )]2 } = k 2 M {[ y i – M ( y i )]2 } = k 2 V [yi] s.q.d.
Hay que aclarar que, como en el caso de la media, esta propiedad comprende también la
división por una misma constante k, ya que ésta puede ser un valor mayor que 1 en valor
absoluto, en cuyo caso es un valor que realmente multiplica, en cambio puede ser un
número comprendido entre 0 y 1 en valor absoluto, en cuyo caso realmente divide.
Propiedad combinada: Si se multiplican todos los valores de variable por una misma
constante k' y al resultado se suma o resta otra constante k , la varianza original queda
únicamente multiplicada por el cuadrado de la constante k’ ya que la constante que suma o
resta k” no altera la dispersión original.
H/ V [k' yi± k ] = k ' 2 V [yi]
D/ V [k' yi± k ] = M{ ¿ ¿¿¿ 2 }= M{ ¿ ¿¿¿ 2 }
= M{ ¿ ¿¿¿ 2 } = k ' 2 M{ ¿ ¿¿¿ 2 }
= k ' 2 V [yi] s.q.d.
Está claro que la constante que multiplica k' altera la dispersión. La aumenta si su valor
absoluto es mayor que 1, es decir si ¿ k ' ∨¿1 y la reduce si su valor absoluto está entre 0 y 1,
es decir si 0< ¿ k ' ∨¿ 1.
Veamos algunos ejemplos para mejor comprensión de la aplicación de estas propiedades,
Ejemplo 4
Dadas las edades de 6 niños: 5; 5; 5; 5; 5; 5
5+5+5+5+5+5+ 5
Se media será: x = =5
6

37
La varianza será s2 = M{[5 – M (5)]2 } = M{ [5 – 5]2 } = 0
Ejemplo 5
Dada la siguiente distribución del gasto semanal en consumo de carne de res de160
familias.

Li Ls yi ni yini yi2ni
100 140 120 33 3.960 475.200
140 180 160 49 7.840 1.254.400
180 220 200 41 8.200 1.640.000
220 300 260 27 7.020 1.825.200
300 400 350 10 3.500 1.225.000
TOTAL 160 30.520 6.419.800

El municipio ha otorgado a todas las familias un bono de Bs 50 para ser usado en consumo
de carne de res.
Se pide:
a.- Hallar la media y la varianza del gasto semanal original de las 160 familias
b.- Hallar la media y la varianza del nuevo gasto semanal de las 160 familias
Resolviendo:
a.- Con los datos originales:
m

y= ∑ y i n i = 30.520 = 190.75 Bs
i=1
160
n
6.419.800
s2 = y 2 - y 2 → s2= – 190.752= 3.738.19
160
b.- Con la nueva situación:
M [yi−50 ¿ = y −¿ 50 = 190.75 – 50 = 140.75 Bs
V [yi−50 ¿ = V [yi¿ = 3.738.19
Se observa que la media disminuye, pero la dispersión, medida por la varianza, se
mantiene.
Ejemplo 6
Se tiene la siguiente tabla que muestra la distribución de los salarios mensuales de los
trabajadores de una industria:

Li Ls yi ni yini yi2ni
2.000 4.000 3.000 62 186.000 558.000.000
4.000 6.000 5.000 72 360.000 [Link]
6.000 10.000 8.000 55 440.000 [Link] 38
10.000 15.000 12.500 36 450.000 [Link]
15.000 25.000 20.000 25 500.000 [Link]
TOTAL 250 1.936.000 [Link]
Ha concluido una negociación salarial en la que empresario y trabajadores han acordado un
incremento del 3.5% más un bono de 150 Bs a todos.
Se quiere calcular el nuevo promedio que ganarán los trabajadores y cómo se verá alterada
la dispersión de los datos como consecuencia de lo acordado.
Calculemos la media y la varianza antes del incremento.
m

y= ∑ y i n i = 1.936 .000 = 7.744 Bs


i=1
250
n
21.503.000 .000
s2 = y 2 - y 2 → s2= – 7.744 2= 26.042.464
250
Veamos ahora qué ocurre con estos indicadores con el incremento acordado.
M [1.035yi+150 ¿ = 1.035 y +150 = 1.035(7.744) +150 = 8.165.04 Bs
V [1.035yi+150 ¿ = 1.0352V [yi¿ = 1.0352 (26.042.464) = [Link]
Como consecuencia de lo acordado se ve que el nuevo promedio salarial ha subido desde
7.744.00 Bs a 8.165.04 Bs, en tanto que la varianza de la distribución ha pasado de
26.042.464 a [Link]. La dispersión original se ha visto incrementada en 1.035 2, en
tanto que el bono de 150 Bs no la ha afectado.
4.2.4. Componentes de la varianza
En realidad, esta viene a ser una más de las propiedades de la varianza, pero se la ve en su
carácter particular por la importancia que tiene comprender su funcionamiento, ya que se
utiliza bastante en muchos tipos de análisis estadístico.
Se trata de ver cómo se puede calcular la varianza cuando la población ha sido dividida en
L estratos y de cada uno de ellos se ha calculado su media y su varianza. En una tabla se
puede presentar esto de la siguiente manera:

Estratos 1 2 3 4 5 …… L Total
n(j) n(1) n(2) n(3) n(4) n(5) …… n(L) n
ȳ(j) ȳ(1) ȳ(2) ȳ(3) ȳ(4) ȳ(5) …… ȳ(L)
ȳ(j) n(j) ȳ(1) n(1) ȳ(2) n(2) ȳ(3) n(3) ȳ(4) n(4) ȳ(5) n(5) …… ȳ(L) n(L) ∑ ȳ(j) n(j)
2 2 2 2 2 2 2
s( j) s(1 ) s
(2) s(3 ) s(4) s(5 ) s(L)

39
Para poder calcular la varianza total (de los n datos) tenemos que definir previamente dos
conceptos:
a.- La intervarianza
Se la simboliza con s2b , mide la dispersión existente entre los estratos y viene a ser la
varianza de las medias de los estratos, es decir:
L

s
2
b = V[ȳ(j)] =
∑ ( ȳ ( j)− ȳ )2 n( j)
J=1
n

b.- La intravarianza
Se la simboliza con s2w , mide la dispersión existente dentro de los estratos y viene a ser la
media de las varianzas de los estratos, es decir:
L

2
s = M [s
w
2
]=
∑ s2( j) n( j)
( j) J=1
n
Se puede demostrar que la varianza global, o de todos los datos, es la suma de la
intervarianza y la intravarianza, es decir:
s2 ¿ s2b + s2w

Veamos un ejemplo completo para comprobar esto último.


Ejemplo 7
Se tiene la siguiente distribución de edades de 100 personas que asisten a un gimnasio

Li Ls yi ni yini yi2ni
16 20 18 14 252 4536
20 24 22 16 352 7744
24 28 26 20 520 13520
28 32 30 16 480 14400
32 36 34 14 476 16184
36 40 38 10 380 14440
40 50 45 7 315 14175
50 60 55 3 165 9075
TOTAL 100 2940 94074

Hallamos la media y la varianza correspondientes:

40
m

y= ∑ y i n i = 2.940 = 29.40 años


i=1
100
n
94.074
s2 = y 2 - y 2 → s2= – 29.402= 76.38
100
Se han conformado 3 estratos: Los que tienen de 16 a 28 años (estrato 1), los que tienen de
28 a 40 años (estrato 2) y los que tiene de 40 a 60 años (estrato 3), para ellos establecemos
su tamaño, su media y su varianza:
Estrato 1: Tamaño n(1) = 14+16+20 = 50
3

Media y (1) =
∑ y i n i = 252+ 352+ 520 = 1.124 = 22.48
i=1
50 50
n
4.536+7.744 +13.520
Varianza s2(1) = - 22.482= 10.6496
50
Estrato 2: Tamaño n(2) = 16+14+10 = 40
6

Media y (2) =
∑ y i n i = 480+ 476+380 = 1.336 = 33.40
i= 4
40 40
n
14.400+16.184+14.440
Varianza s2(2) = - 33.402= 10.04
40
Estrato 3: Tamaño n(3) = 7+3 = 10
8

Media y (3) =
∑ y i n i = 315+165 = 480 = 48.00
i=7
10 10
n
14.175+9.075
Varianza s2(1) = - 482= 21.00
10
Resumiendo, tenemos lo siguiente:

Estratos 1 2 3 Total
n(j) 50 40 10 100
ȳ(j) 22.48 33.40 48.00
2
s( j) 10.6496 10.04 21.00

Calculamos la media de los estratos:

41
L

y= ∑ y ( j)n ( j) → y = ( 22.48 ) (50 )+ ( 33.40 ) ( 40 ) +( 48.00 ) (10 ) = 2.940 = 29.40 años


J=1
100 100
n
Que es el mismo valor al que llegamos con la tabla original
Para calcular la varianza de los estratos hallamos primero el valor de sus componentes:
L

La intervarianza cuya fórmula es s2b = V[ȳ(j)] =


∑ ( ȳ ( j)− ȳ )2 n( j) , para este caso será:
J=1
n
2 2 2
2 (22.48−29.40) 50+(33.40−29.40) 40+(48−29.40) 10 6.493.92
s = V[ȳ(j)] =
b = =
100 100
64.9392
L

La intravarianza cuya fórmula es s2w = M [ s( j)] =


2 ∑ s2( j) n( j) , para este caso será:
J=1
n
2 2 ( 10.6496 ) ( 50 ) + ( 10.04 ) ( 40 )+ ( 21.00 ) (10 ) 1.144 .08
sw = M [ s( j)] = = = 11.4408
100 100
Sumamos estos dos valores y debemos obtener la varianza de las edades de las 100
personas que asisten al gimnasio:
s2 = s2b + s2w → s2 = 64.9392 + 11.4408=¿ 76.38
Que viene a ser exactamente lo que se calculó con los datos de la tabla original.
Esta demostración empírica valida perfectamente lo que se ha dicho respecto de los
componentes de la varianza.
Se debe acotar que, cuando se quiere hacer una buena estratificación de datos, se debe
buscar, en lo posible, que la intervarianza sea el mayor componente de la varianza y, por
tanto, que la intravarianza sea lo más pequeña posible. Es decir, debe existir una mayor
dispersión entre los estratos y una menor dispersión dentro de los estratos. En otras
palabras, los datos de los estratos deben ser homogéneos entre sí y la mayor dispersión debe
darse como consecuencia de que los datos de un estrato son diferentes de los de cualquier
otro.
En el ejemplo que se ha desarrollado se puede ver el porcentaje de la dispersión con el que
2 2
2 2 2 2
sb sw
aporta cada componente, dividiendo la relación s = s + s entre s se tiene 1 =
b w 2
+ 2
:
s s

42
64.9392 11.4408
1= +
76.38 76.38
100% = 85.02% + 14.98%
Está claro que el mayor aporte a la dispersión lo ha hecho la dispersión entre los estratos
mientras que la dispersión dentro de los estratos ha tenido un aporte bastante menor.
Finalmente, se debe tomar nota de dos aspectos que conlleva el cálculo de la varianza de
una distribución:
- Su valor tendría que ser expresado en unidades de medida de la variable elevadas al
cuadrado, ya que es eso lo que resulta cuando se efectúan todos los pasos para su
cálculo. No obstante, la varianza en sí misma tiene mucha utilidad en el análisis
estadístico.
- Por sí solo el valor de varianza que se obtiene no puede decir mucho sobre las
características de una distribución. Sin embargo, cuando se lo compara con valores
obtenidos para distribuciones semejantes o referidas al mismo tipo de variable que se
analiza, es capaz de permitir obtener conclusiones válidas, porque es claro que a mayor
varianza corresponde una mayor dispersión y a menor varianza una menor dispersión.

4.2.2. La desviación típica o desviación estándar


Se simboliza con s y viene a ser la raíz cuadrada positiva de la varianza, es decir:
s = + √ s2
Elimina el hecho de que el valor de la varianza debiera ser expresado en unidades de
medida de la variable elevadas al cuadrado. Al extraerle la raíz cuadrada, la desviación
típica o desviación estándar resultante se mide en las mismas unidades que la variable.
Por analogía se puede deducir sus propiedades, ya que no son sino la aplicación de las
propiedades de la varianza a las que se les debe extraer la raíz cuadrada:
1ra. Propiedad: La desviación típica o estándar de una constante es cero
H/ s [k] = 0
D/ Dado que V[k] =0 √ V [k ] = 0 s[k ] = 0 s.q.d.
2da. Propiedad: Si se suma o resta una misma constante k a todos los valores de variable la
desviación típica o estándar original no se altera.
H/ s [yi ± k ] = s [yi]

43
D/ Dado que V [yi ± k ] = V [yi] entonces √ V [ y i ± k ]=¿ √ V [ y i] = s [yi] s.q.d.
3ra. Propiedad: Si todos los valores de variable se multiplican por una misma constante (k),
la desviación típica o estándar original queda multiplicada por esa constante.
H/ s [kyi] = k s [yi]
D/ Dado que V [kyi] = k 2 V [yi] entonces √ V [ky i]=¿ √ k 2 V [ y i] = k s [yi] s.q.d.
Propiedad combinada: Si se multiplican todos los valores de variable por una misma
constante k' y al resultado se suma o resta otra constante k , la desviación típica o estándar
original queda únicamente multiplicada por la constante k’ ya que la constante que suma o
resta k” no altera la dispersión original.
H/ s [k' yi± k ] = k' s [yi]
D/ V [k' yi± k ] = k ' 2 V [yi] entonces √ V ¿ ¿ √ k ' 2 V [ y i]= k ' s [yi] s.q.d.

Veamos algunos ejemplos:


Ejemplo 1
Para la distribución de 25 familias por número de hijos, que vimos antes, cuya media
aritmética era 2.12 y cuya varianza era s2 = 1.4656, la desviación típica o estándar será:
s = √ 1.4656 ¿ ¿ = 1.21 hijos
Ejemplo 2
Para la distribución de notas en Cálculo I de los 40 alumnos de Cálculo II, cuya media
aritmética era y = 70.125 la varianza resultante fue s 2= 145.24, la desviación típica o
estándar resultante será: s = √ 145.24 ¿ ¿ =12.05 puntos
Ejemplo 3
Para la distribución del gasto semanal en consumo de carne de res de160 familias visto al
estudiar la varianza, cuya media era y = 190.75 Bs y su varianza s 2 = 3.738.19, la
desviación típica o estándar resultante será: s = √ 3.738 .19 =61.14 Bs
Ejemplo 4
Para la distribución de los salarios mensuales de los 250 trabajadores de una industria, cuya
media era 7.744 Bs y su varianza s2= 26.042.464, la desviación típica o estándar resultante
será: √ 26.042.464 = 5.103.18 Bs.

44
Ejemplo 5
Para la distribución de edades de 100 personas que asisten a un gimnasio cuya media era
y = 29.40 años y su varianza s2 = 76.38, la desviación típica o estándar resultante será:
s = √ 76.38 = 8.74 años

4.3. Medidas de dispersión relativa


Hemos visto hasta aquí que los estadígrafos o medidas de dispersión o variabilidad son
útiles cuando se comparan o contrastan sus valores con otros de distribuciones similares.
Sin embargo, por sí solos no son capaces de mostrar lo que pasa al interior de las
distribuciones.
Para poder analizar lo que sucede con la dispersión o variabilidad dentro de una
distribución o, inclusive, poder comparar la dispersión o variabilidad en distribuciones de
diferente naturaleza, se ha construido este tipo de medidas de las cuales la más
representativa es:
4.3.1. El coeficiente de variación
Se simboliza con C.V. y es la desviación típica o estándar medida en unidades de media
aritmética. Se calcula así:
s
C.V. =
y
Dado que, tanto la media como la desviación típica se miden en las mismas unidades que la
variable, al dividirlas resulta una medida abstracta (sin unidad de medida), de ahí viene su
denominación de “coeficiente”.
Se expresa normalmente en porcentaje y sus valores corrientemente se hallan entre 0 (0%)
y 1(100%), aunque pueden darse casos muy excepcionales en que exceda de 1 (100%).
Cuando su valor se aproxima a 0 (0%) significa que hay baja dispersión relativa, en cuyo
caso la media es representativa de la distribución. En cambio, si se aproxima a 1 (100%)
significa que hay alta dispersión relativa, en cuyo caso la media no es representativa de la
distribución. En las situaciones intermedias se pueden efectuar muchas consideraciones
correspondientes al valor obtenido.
Veamos algunos ejemplos:
Ejemplo 1

45
Para la distribución de 25 familias por número de hijos, que vimos antes, cuya media
aritmética es 2.12 hijos y cuya desviación típica es 1.21 hijos, el coeficiente de variación
será:
1.21hijos
C.V. = = 0.5708 o 57.08%
2.12hijos
Se puede concluir que la dispersión relativa es más alta que baja, luego la media no tiene
una buena representatividad de los valores observados.

Ejemplo 2
Para la distribución de notas en Cálculo I de los 40 alumnos de Cálculo II, cuya media
aritmética era y = 70.12 puntos y la desviación típica o estándar 12.05 puntos, el coeficiente
de variación será:
12.05 puntos
C.V. = = 0.1708 o 17.18%
70.12 puntos
La dispersión relativa es baja, la media es representativa de la distribución.
Ejemplo 3
Para la distribución del gasto semanal en consumo de carne de res de160 familias, cuya
media era y = 190.75 Bs y su desviación típica 61.14 Bs, el coeficiente de variación será:
61.14 Bs
C.V. = = 0.3205 o 32.05%
190.75 Bs
La dispersión relativa es baja, la media aritmética tiene cierta representatividad.
Ejemplo 4
Para la distribución de los salarios mensuales de los 250 trabajadores de una industria, cuya
media era 7.744 Bs y cuya desviación típica o estándar era 5.103.18 Bs, el coeficiente de
variación será:
5.103 .18 Bs
C.V. = = 0.6590 o 65.90%
7.744 .00 Bs
La dispersión relativa es alta, la media aritmética tiene poca representatividad.
Ejemplo 5
Para la distribución de edades de 100 personas que asisten a un gimnasio cuya media era y
= 29.40 años y su desviación típica o estándar 8.74 años, el coeficiente de variación será:
8.74 años
C.V. = = 0.2973 o 29.73%
29.40 años

46
La dispersión relativa es baja, la media tiene representatividad.
Ejemplo 6
Se ha medido y pesado a 80 jóvenes de un colegio, con los siguientes resultados:
Estaturas en centímetros: y = 164,33 cm s = 10.75 cm
Pesos en kilogramos: y = 58.25 kg s = 7.43 kg
Se desea saber en cuál de las dos distribuciones la media aritmética tiene mayor
representatividad.
Hallamos los coeficientes de variación correspondientes:
10.75 cm
Estaturas: C.V. = = 0.0654 o 6.54%
164.33 cm
7.43 kg
Pesos: C.V. = = 0.1276 o 12.76%
58.25 kg
En ambos casos las dispersiones relativas son bajas, por lo que sus correspondientes medias
son representativas de sus correspondientes distribuciones. No obstante, la distribución de
estaturas tiene una dispersión relativa menor con relación a la distribución de pesos, por lo
que la media de las estaturas tiene mayor representatividad que la media de los pesos.
Con este último ejemplo se ha mostrado que el coeficiente de variación puede medir
dispersiones relativas que se pueden, a su vez, comparar con las de otras distribuciones
aunque se refieran a diferentes variables ambas, inclusive aunque se trate de poblaciones
diferentes pero que interesa compararlas.

4.3.2. Tipificación de variables


Una buena aplicación de la desviación típica o estándar para medir la posición relativa de
los datos en el conjunto poblacional observado consiste en tipificar dichos datos, lo que no
es otra cosa que medir sus desvíos respecto a su media aritmética y, el resultado, dividirlo
entre la correspondiente desviación típica o estándar. A esta forma transformada de variable
se simbolizará con zi, siendo en consecuencia igual a:
xi −x
zi =
s
Se trata de una nueva variable fruto de esta transformación que tiene por media 0 y por
varianza 1, lo cual se puede demostrar así:

47
xi −x 1 1
M[zi] = M[ ] = M[ x i−x ] = [0] = 0 s.q.d
s s s
2
1 1 1 s
V[zi] = 2 V[ i ] = 2 {
x −x V [ x i ] −V [ x ] }= s 2 { V [ x i ]−0 } = 2 =1 s.q.d.
s s s
Su mayor utilidad será vista cuando se aborden temas de la inferencia estadística, en la
segunda parte de esta materia.
Por ahora veamos algunos ejemplos de aplicación práctica de su uso.
Ejemplo 1
Han rendido la prueba del primer parcial 50 alumnos que llevan Matemáticas y Física, entre
otras materias. Las notas en Matemáticas han tenido una media de 56.25 con una varianza
de 90.25 mientras que en Física el promedio ha sido 63.75 con una varianza de 43.56.
Una alumna llamada Juana ha obtenido una nota de 64 en Matemáticas y 66 en Física. ¿En
cuál de las materias tiene una mejor posición relativa respecto a sus compañeros?
Datos:
xi −x 64−56.25
Matemáticas: x = 56.25 s2 =90.25 s= √ 90.25 = 9.5 zi = = = 0.82
s 9.5
xi −x 66−63.75
Física: x = 63.75 s2 =43.56 s= √ 43.56 = 6.6 zi = = = 0.34
s 6.6
Conclusión: Ha tenido una mejor posición relativa en Matemática que en Física
Ejemplo 2
A 80 personas que postularon a un cargo se les ha planteado 100 preguntas de cultura
general y 100 preguntas de destreza sobre el cargo al que postulan. En cultura general el
promedio de respuestas ha sido 60.75 con una varianza de 75.69. En destreza para el cargo
el promedio de respuestas ha sido 54.46 con una varianza de 57.76. Mario, un postulante al
cargo, ha obtenido 57 en cultura general y 52 en destreza para el cargo y quiere saber en
cuál de los dos tipos de pruebas tiene una mejor posición relativa.
Datos:
xi −x 57−60.75
Cultura general: x = 60.75 s2 = 75.69 s = √ 75.69 = 8.7 zi = = = - 0.43
s 8.7
xi −x 52−54.46
Destreza: x = 54.46 s2 = 57.76 s = √ 57.76 = 7.6 zi = = = - 0.34
s 7.6

48
Conclusión: Ha tenido una mejor posición relativa en destreza para el cargo que en cultura
general, ya que - 0.34¿−0.43 .

5.- Medidas de asimetría

Este tipo de medidas se preocupan por la forma o apariencia que tienen las distribuciones
en su sentido horizontal. Desde esa perspectiva, en general se distinguen tres tipos o
formas que adoptan las distribuciones unimodales (que son las que más se presentan). En el
gráfico que se muestra a continuación se aprecian las curvas de frecuencias de esos tres
tipos de distribuciones:

- Las que tienen asimetría negativa o hacia la izquierda, que son dispersas en los valores
bajos y concentradas en los valores altos. Un ejemplo de este tipo sería la distribución de
infartos cardíacos por edades.

- Las que tienen asimetría positiva o hacia la derecha, que son concentradas hacia los
valores bajos y dispersas hacia los valores altos. Un ejemplo de este tipo sería la
distribución de personas según sus ingresos.

- Las que tienen simetría, es decir son dispersas en los valores bajos y altos y concentradas
en los valores centrales. Este tipo de distribuciones se presentan, por ejemplo, cuando a
grandes poblaciones de personas se mide su peso o sus estaturas o se somete a un examen
de conocimientos.

Asimetría positiva o
Asimetría negativa o Simetría perfecta hacia la derecha
hacia la izquierda

Mo Me 𝑦 ̅
y Me Mo y =Me=Mo

Se observa que se han tomado como indicadores de referencia la media aritmética y el


modo de las distribuciones. El modo, gráficamente, viene a ser el valor de variable

49
correspondiente al punto más alto de la distribución. Cuando la distribución tiene asimetría
negativa o hacia la izquierda la media aritmética se ubica a la izquierda del modo. Cuando
la distribución tiene asimetría positiva o hacia derecha la media aritmética se ubica a la
derecha del modo. Cuando la distribución es simétrica la media aritmética y el modo
coinciden en el mismo valor.
La mediana (Me) en distribuciones unimodales y moderadamente asimétricas, se ha podido
ver, empíricamente, que se ubica entre la media aritmética y el modo, aproximadamente a
un tercio de la distancia entre ellas.
A partir de esta observación empírica Karl Pearson, un estadístico inglés, planteó el
siguiente coeficiente de asimetría que lleva su nombre:
x−Mo
A=
s
Que puede tener tres posibilidades:
- Si A ¿ 0 la distribución tiene asimetría positiva o hacia la derecha
- Si A<¿ 0 la distribución tiene asimetría negativa o hacia la izquierda
- Si A = 0 la distribución es simétrica

Para los casos en los que no se conoce o la media aritmética o el modo de una distribución
se plantea, a partir de la relación empírica entre los tres indicadores, la siguiente relación:

1
Me = y - ( y -Mo)
3

Que permite hallar el indicador que no se conoce con un simple despeje y, posteriormente,
hallar el coeficiente de asimetría correspondiente.

Ejemplo 1
Para la distribución de pesos (en kg) de 150 personas que asisten a un gimnasio:
yi yini 2
Li Ls ni y i ni
50 58 54 30 1.620 87.480
58 66 62 33 2.046 126.852
66 74 70 39 2.730 191.100
74 82 78 27 2.016 164.268
82 90 86 21 1.806 155.316
TOTAL 150 10.218 725.016

50
Se trata de ver cuál es la asimetría de la distribución
m

Hallamos la media: y =
∑ y i n i = 10.218 = 68.12 kg
i=1
150
n
n j+1 27
Hallamos el modo: Mo = Lij + cj → Mo = 66 + 8 = 69.6 kg
n j −1 +n j+1 27+33
725.016
Hallamos la varianza: s2 = y 2 - y 2 → s2= – 68.122= 193.11
150
Hallamos la desviación típica s = √ 193.11 = 13.90
x−Mo 68.12−69.6
Hallamos el coeficiente de asimetría de Pearson: A = = = - 0.11
s 13.90
Conclusión: La distribución de los pesos de las 150 personas que asisten al gimnasio tiene
asimetría negativa o hacia la izquierda.
Ejemplo 2
Para la distribución de los ingresos mensuales de 125 empleados de un banco:

ni 2
Li Ls yi ni yini y i ni
ci
2.100 2.500 2.300 19 0.0475 43.700 100.510.000
2.500 4.500 3.500 26 0.0130 91.000 318.500.000
4.500 7.500 6.000 30 0.0100 180.000 [Link]
7.500 10.000 8.750 24 0.0096 210.000 [Link]
10.000 15.000 12.500 16 0.0032 200.000 [Link]
15.000 20.000 17.500 8 0.0016 140.000 [Link]
20.000 30.000 25.000 4 0.0004 100.000 [Link]
TOTAL 125 964.700 [Link]

Se quiere saber qué tipo de asimetría presenta:


m

Hallamos la media: y =
∑ y i n i = 964.700 = 7.717.60 Bs
i=1
125
n
Hallamos el modo:

51
n j+1
c j+1 0.0130
Mo = Lij + cj → Mo = 2.100 + 400 → Mo=2.500Bs
n j−1 n j+1 0.0000+0.0130
+
c j−1 c j+1
10.786 .510.000
Hallamos la varianza s2 = y 2 - y 2 → s2= – 7.717 .602= [Link]
125
Hallamos la desviación típica s = √ 26.730 .730.24 = 5.170.18
x−Mo 7.717 .60−2.500
Hallamos el coeficiente de asimetría de Pearson: A = = = 1.01
s 5.170 .18
Conclusión: La distribución de los ingresos mensuales de los 125 empleados del banco
tiene asimetría positiva o hacia la derecha.
Ejemplo 3
La distribución de estaturas de 150 atletas presenta una media aritmética de 172.50 cm, una
mediana de 171 cm y una varianza de 6.25. ¿cuál es el signo y grado de asimetría que
presenta esa distribución?
s =6.25 → s = √ 6.25 = 2.5 Mo =?
2
Los datos son: y = 172.5 Me = 171.0
Usando la relación empírica hallamos el valor de Mo:

1 1 1 1
Me = y - ( y -Mo) → 171.0 = 172.5 - (174.5 -Mo) → -1.5 = -57.5 + Mo→ 56 =
3 3 3 3
Mo

Mo = 3 (56) → Mo = 168

Aplicando la fórmula del coeficiente de asimetría se tiene:

x−Mo 172.5−168
A= = = 1.8
s 2.5
Luego, la distribución de estaturas de los 150 atletas tiene asimetría positiva o hacia la
derecha.
Gráficamente el ejercicio planteado se presentaría de la siguiente forma:

52
6.- Medidas de apuntamiento
En este caso lo que se Mo Me 𝑦 ̅
buscar es la forma o apariencia
que desde el punto de 168 171 172.5 vista vertical tienen las
distribuciones. Se trata de medir el grado en el que los
datos de una distribución se hallan o no concentrados en torno a su media aritmética.
Al apuntamiento se lo suele llamar también “curtosis”. Gráficamente se distinguen tres
tipos
de distribuciones según cuál es su grado de apuntamiento o concentración.

Apuntada o leptocúrtica Moderadamente apuntada o mesocúrtica Aplanada o platicúrtica

- - Las distribuciones apuntadas o leptocúrticas, que muestran mucha concentración de


los datos.
- Las distribuciones moderadamente apuntadas o mesocúrticas, que presentan una
concentración uniforme de los datos.
- Las distribuciones aplanadas o platicúrticas, que prácticamente no tienen concentración
de datos.

Existen indicadores o medidas que permiten encontrar valores que dan una buena pauta
sobre el grado de apuntamiento que presenta una distribución unimodal.

Uno de los más usados es el coeficiente de curtosis de Fischer que se presenta así:

53
n
1
∑ ( y − y ) 4 ni
K = n i=1 i
s4

Si K=3 estamos ante una distribución mesocúrtica o moderadamente apuntada. La


distribución Normal estándar tiene esa conformación y, por ello, se convirtió en referente
para establecer este indicador.

Si K¿ 3 se dice que la distribución es leptocúrtica o apuntada, es decir tiene mucha


concentración de los datos en torno a la media aritmética de la distribución.

Si K¿ 3 se dice que la distribución es platicúrtica o aplanada, es decir tiene poca


concentración de los datos en torno a la media aritmética de la distribución

Ejercicio 1

Para la siguiente distribución de edades de personas hospitalizadas con Covid 19:

2 4
Li Ls yi ni yini y i ni yi - y ¿ - y ¿ ni ( y i− y) ni
18 - 24 21 9 189 3.969 -27 -243 4.782.969
24 - 30 27 17 459 12.393 -21 -357 3.306.177
30 - 36 33 27 891 29.403 -15 -405 1.366.875
36 - 42 39 36 1.404 54.756 -9 -324 236.196
42 - 48 45 44 1. 980 89.100 -3 -132 3.564
48 - 54 51 32 1.632 83.232 3 96 2.592
54 - 60 57 30 1.710 97.470 9 270 196830
60 - 66 63 25 1.575 99.225 15 375 1.265.625
66 - 72 69 18 1.242 85.698 21 378 3.500.658
72 - 78 75 9 675 50.625 27 243 4.782.969
78 - 84 81 3 243 19.683 33 99 3.557.763
TOTAL 250 12.000 625.554 33 0 23.002.218

Se pide hallar el coeficiente de curtosis y explicar su significado.

Para calcular el coeficiente de curtosis de Fischer previamente debemos calcular la media y


la varianza de la distribución.

Hallamos la media y =
∑ y i n i = 12.000 = 48.00
i=1
250
n

54
625554
Hallamos la varianza s2 = y 2 - y 2 → s2= – 48 2= 198.22
250
Calculamos la desviación típica s = √ 198.22 = 14.08
Aplicamos la fórmula y hallamos el coeficiente de asimetría de Fischer:
n
1 1

K = n i=1
(
4
y i − y ) ni
→ K= 250
(23.002 .218)
= 2.34
4
s 4
14.08
Luego, podemos concluir que la distribución es del tipo platicúrtica, es decir tiene poca
concentración en torno a la media aritmética.

55

También podría gustarte