Guía de Estadígrafos y Medidas de Resumen
Guía de Estadígrafos y Medidas de Resumen
Estadígrafo: Es la medida que en Estadística se aplica sobre una muestra. A estos indicadores
se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN, permiten hallar un
valor numérico, el mismo que representa a toda la población o muestra en estudio.
Las medidas de resumen más importantes se clasifican en tres grupos:
- Medidas de tendencia central: Media, mediana, moda
- Medidas de posición : Deciles, cuartiles, percentiles
- Medidas de dispersión: Desviación standard, varianza, coeficiente de variación
GENERALIDADES
En una distribución de frecuencias se observan diferentes características que tienen relación
con el comportamiento de las variables. Una de las primeras observaciones se refieren a la
ubicación o posición de los datos alrededor de un valor central; así en las distribuciones de
frecuencias pueden existir diferentes valores centrales para la misma forma de distribución, o
también un solo valor central para diferentes formas de distribución. La importancia de estas
características condice en general a la determinación de promedios o estadígrafos de posición.
X + X 2 + X 3 + ....... + X n
X
j =1
j
X
X = 1 = =
n n n
1
EJEMPLO:
8 + 3 + 5 + 12 + 10
X = = 7.6
5
X
j =1
j
PARA DATOS NO
Luego se puede decir que: X = AGRUPADOS
n
Clases fi xi xifi
[10 - 26> 4 18 72
[26 - 42> 12 34 408
[42 - 58> 7 50 350
[58 - 74> 4 66 264
[74 - 90> 2 82 164
[90 - 106| 1 98 98
30 1356
i =k
x i fi
1356
Donde: x = i =1
;x =
= 45,2 45
N 30
Donde el promedio de ovejas es de 45 en una comunidad de 30 habitantes.
f X + f 2 X 2 + .... + f m X m
f
j =1
j Xj
fX = fX
X = 1 1 = =
f1 + f 2 + ...... + f m
f
m
j
f n
j =1
2
m
Entonces: f
j =1
j X j
PARA DATOS
X = m
AGRUPADOS
f j =1
j
La primera clase comprende las alturas de 60 a 62 pulgadas, puesto que 5 estudiantes tienen
una altura perteneciente a esa clase, la correspondiente frecuencia de clase es 5.
3
Intervalos de Clase y Límites de Clase: Un símbolo que define una clase tal como 60-62 de la
tabla anterior, se conoce como intervalo de clase. Los números extremos 60 y 62 son los
“Límites de Clase”, el número menor es el “Límite inferior” de la clase y el mayor es el
“Límite superior” de la clase; “Límite Real”.
Los términos clase e intervalo de clase se usan a menudo indistintamente, aunque el intervalo
de clase es realmente un símbolo para la clase.
Marca de Clase: La marca de clase es el punto medio del intervalo de clase y se obtiene
sumando los límites superior e inferior de la clase y dividiendo por 2.
SOLUCIÓN
La Tabla 1.2 indica cómo se hace. Nótese que todos los estudiantes que tienen entre 60 y 62
(pulgadas) , o entre 63 y 65, etc., se consideran como de 61 (pulgadas) , 64 (pulgadas), etc.
El problema se reduce entonces a hallar la altura media de 100 estudiantes, de los cuales 5
miden 61 (pulgadas), 18 miden 64 (pulgadas), etc.
Los cálculos exigidos pueden ser tediosos, sobre todo para casos de números grandes y con
muchas clases.
Tabla 1.2
Altura (pulgadas) Marca de clase (X) Frecuencia ( f ) fX
60-62 61 5 305
63-65 64 18 1152
66-68 67 42 2814
69-71 70 27 1890
72-74 73 8 584
n = f = 100 n = fX = 6745
4
X =
fX = fX =
6745
= 67 .45 _ pu lg adas
f n 100
Dada la importancia que posee la media aritmética como estadígrafo de posición, es necesario
apelar a su flexibilidad matemática para deducir formulas abreviadas o reducidas
Donde: d= Desviación
X= Variable
A=Origen de trabajo (o media hipotética)
Despejando la variable X se tiene:
m
X=d+A
j =1
fjX j
X =
n
m m m
j =1
f j (d j + A)
j =1
f jd j A f j
j =1
X= = +
n n n
Entonces:
X=
fd + An
n n
X = A+
fd FORMULA DEL METODO CORTO PARA
n DATOS AGRUPADOS
5
X = A+
d PARA DATOS NO AGRUPADOS
Las formulas del método corto no tienen restricciones en este sentido se pueden utilizar cuando
los tamaños de clase son iguales o no y cuando la serie es simple o de datos agrupados
METODO CORTO:
Si las marcas de clase Xi son remplazados por una constante di entonces la media aritmética
seria igual a:
i =k
d i fi
x= i =1
+ A donde: A es la frecuencia absoluta de clase central o también llamado de
N
trabajo.
Donde: di es una desviación de variación del ancho del intervalo de clase(w).
u i fi
x=w i =1
+A
N
Ejemplo:
6
− 144
Para el primer caso el promedio será: x = + 50 = 45,2 ; Para el segundo caso será:
30
−9
x = 16 + 50 = 45,2
30
b) Método Clave
Se sustenta en un cambio de origen y de escala simultáneamente de manera que por este medio
, se define una nueva variable (“u”) de números enteros positivos y negativos . es importante
aclarar que la formula obtenida por este método, tiene restricciones fundamentales y es que
solamente se puede utilizar cuando los tamaños de clase son CONSTANTES y únicamente
para datos agrupados en otro caso no es posible utilizar la formula deducida por el método
CLAVE.
cu = X − A
X −A
u=
c
Donde:
C = Tamaño de intervalo de clase
U = Números enteros positivos, negativos y cero
X = Variable
A = Origen de trabajo o media hipotética
Despejando X:
X=cu+A
Por lo tanto
m m m
f
j =1
j (cu j + A) f cu
j =1
j j A f j
j =1
X= = +
n n n
m m
A f j c f j u j
j =1 j =1
X= +
n n
7
m
f ju j FORMULA DEL MÉTODO CLAVE
X = A+ c
j =1
n
1.1.2 PROPIEDADES DE LA MEDIA ARITMÉTICA
La media aritmética tiene propiedades sumamente importantes desde el punto de vista
descriptivo y también inferencial, sin embargo es imprescindible realizar una revisión de las
propiedades más fundamentales empezando por las descriptivas.
PROPIEDAD 1
Para datos no agrupados. La suma algebraica de las desviaciones de cada valor observado
X 1 , X 2 ,........Xn con respecto a su media es cero. Esta propiedad significa que,
n
(X
j =1
j − X) = 0
f
j =1
j (X j − X ) = 0
Donde:
m = número de clases
f j = frecuencia absoluta de la clase j
DEMOSTRANDO:
m m m
j =1
f j ( X j − X ) = f j X j − f j X
j =1 j =1
m m
= f j X j −X f j
j =1 j =1
m
= f j X j −nX
j =1
m
m f j X j −
= f j X j −n =0 8
j =1
j =1 n
n n n
(X
j =1
j − X ) = X j − X
j =1 j =1
n
= X j −nX
j =1
n 1 n
= X j −n * * X j
j =1 n j =1
n n
= X j − X j = 0
j =1 j =1
PROPIEDAD 2
(X − A)
n
2 PARA DATOS NO AGRUPADOS
j
j =1
f (X − A)
m
2 PARA DATOS AGRUPADOS
j j
j =1
DEMOSTRANDO:
(X − A)
n
2
j
j =1
2
(X − A) = ( X j − X ) + ( X − A)
n n
2
j
j =1 j =1
n
= ( X j − X ) 2 + 2( X j − X )( X − A) + ( X − A) 2
j =1
n n n
= ( X j − X ) 2 + ( X − A) 2 + 2 ( X i − X )( X − A)
j =1 j =1 j =1
9
Puesto que
n n
2 ( X j − X )( X − A) = 2( X − A) ( X j − X ) = 0
j =1 j =1
Se tiene
n n
( X i − A) 2 = ( X j − X ) 2 + n( X − A) 2
j =1 j =1
Y como n( X − A) 2 0, obtenemos
n n
(X
j =1
j − A) 2 ( X j − X ) 2
j =1
f (X − A)
m
2
j j
j =1 Es mínimo si A = X
m
= f j ( X j − A) 2
j =1
d m
= 2 f j ( X j − A)( −1)
dA j =1
d
=0
dA
m
2 f j ( X j − A)( −1) = 0
j =1
m
f
j =1
j X j − nA = 0
m
nA = f j X j
j =1
m
f
j =1
j Xj
A=
n
A= X 10
d 2
= 2n Por tanto es mínimo
dA
PROPIEDAD 3
M (X ) = X
f ( AX j + K )
j
j =1
M AX j + K =
n
Operando en el segundo miembro
m m
f j AX j f Xj
A f j X j k f j
j
j =1 j =1
M AX j + K = + = +
n n n n
M AX j + K = AX + K
i) Si A=0
11
M[k] = K
De otro modo:
K =
K = K =
nK
n n n
Luego:
K =K
ii) Si A=1
M Xj +K = X +K
"LA MEDIA ARITMÉTICA O PROMEDIO DE UNA VARIABLE MAS UNA
CONSTANTE, ES IGUAL A LA MEDIA DE LA. VARIABLE MAS LA CONSTANTE".
iii) Si K=0
M[Ak] =A X
PROPIEDAD 4
f j X j m
X1 = j =1
n1
= X 1n1 = f
j =1
j X j
f j Xj m
= X 2 n2 = f j X j
j =1
X2 =
n2 j =1
12
FORMULA DE LA MEDIA GENERAL O MEDIA ARITMÉTICA PONDERADA (Para 2
sub • nuestras)
Donde:
n1 = Tamaño de la sub-muestra 1
n2 = Tamaño de la sub-muestra 2
X 1 = Media aritmética de la sub-muestra 1
Apuntes
W1 X 1 + W2 X 2
X =
W1 + W2
Es la media aritmética ponderada donde los pesos o las ponderaciones; son las W.
Por extensión:
r
n r Xr
X = 1
r
n
1
r
2.- Si a todos los datos le sumamos (o restamos) una constante, la media aritmética de esta serie
es la misma sumada(o restada) por la constante.¨
f1 + f 2 + ...... + f n C x C
13
3.- Si a todas los datos los multiplicamos (o dividimos) por una constante c, distinta de cero , su
media queda multiplicada o dividida por dicha constante.
( f 1 + f 2 + ...... + f n )(*o /)C x (*o /)C
4.- La suma de los desvíos respecto de la media aritmética es siempre igual a cero.
i =m
(x
i =1
i − x) fi = 0
i =m
(x
i =1
i − A) 2 f i = 0 si A= x
A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para
determinado estudio. En esos casos se puede utilizar una media ponderada. Si X1,X2,...,Xn es un
conjunto de datos o media muestral y w1,w2,...,wn son números reales positivos, llamados
"pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:
Donde:
= Dato j
MEDIA PODERADA.
14
x1 + x2 + ..... + xn
x1 , x2 ,...., xn X =
n
EJEMPLO
En una materia dada se asignan pesos de importancia, de la siguiente forma: Unida I (20% del
curso), Unidad II (25% del curso), Unidad III (20% del curso), Unidad IV (15% de la
calificación), Unidad V (20% de la calificación). Si las calificaciones de un alumno son 8 en la
primera unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta unidad y 8 en la última
unidad. Es decir, se tienen la siguiente tabla:
1 n
H= j =m
= j =m
1 1
PARA DATOS NO AGRUPADOS X
j =1
X
j =1
j j
j =m
1
1
X 1 1
j =1
= =
j 15
H n n X
En la práctica es más fácil recordar que:
EJEMPLO:
3 3
La media armónica de 2, 4, 8 es: H = = 3 = 3,42857
1 1 1 7
+ +
2 4 8
1 1 j =m f j
=
H n j =1 X j
EJEMPLO:
10 5
15 20
16 10
20 5
40
16
40 10
H= = 14 = 14,7692
5 20 10 5 13
+ + +
10 15 16 20
j =n
Utilizando logaritmos seria: LogX
j =1
j
log G =
n
EJEMPLO
Calcular el crecimiento promedio porcentual de producción de estaño según el siguiente
cuadro:
17
3,725430995
3.725430995
LogG = = 0,9313577488 G = AntiLog (0,9313577588 ) = 8.538031
4
RESPUESTA: EL crecimiento porcentual promedio anual de estaño es 8,54%
j =m
f
j =1
j log X j
Para datos agrupados seria: G = n f1
X X ... X
1 2
f2 fm
m utilizando logaritmos: log G =
n
La media geométrica tiene algunos inconvenientes como por ejemplo si algún X j es igual “0”
entonces G=0 ó si algún X j es negativo entonces G es imaginario, luego es preciso buscar una
Co -
C1 C1/Co
C2 C2/C1
: :
: :
Cn Cn/C n-1
C1 C 2 C n C
G=n . ... G = n n ; Pero la variación porcentual es: 1-G = r
C O C1 C n −1 Co
Luego: G = r+1
Entonces remplazando este valor en la anterior formula:
Cn C
r +1 = n (r + 1) n = n
Co Co
Cn = Co (1 + r )n
Donde:
18
Cn = Cantidad al final del período
Co = Cantidad inicial
r = Tasa de interes compuesto, o tasa de cambio por período
n = número de períodos.
Esta última función es muy utilizada para cálculos de crecimiento de población o la tasa de
interés compuesto.
EJEMPLO
En una empresa, la producción ha experimentado un crecimiento del 25% del primer al
segundo año, del 40% del segundo al tercero.
a. Determine la tasa promedio de crecimiento del primer año al tercero;
b. Estimar la producción del cuarto año.
SOLUCIÓN El crecimiento de la producción de la empresa se resume en la siguiente tabla
Comprobación:
Año producción (T.M)
1 100
2 100x1.323 = 132.3
3 132.3 x 1.323 = 175.03
19
b. La producción del cuarto año será:
Producción = (producción tercer año) x (Factor de cambio)
=175.03*1.323 = 231.56 T.M.
Equivalencia con la fórmula del interés compuesto
G = 1.25 * 1.40 = 1.323
1.6 MODA
La moda de una serie estadística es la frecuencia más alta de la serie estadística o dicho de otra
manera es el valor más frecuente.
Ejemplo:
20, 40, 30, 40, 50, 110, 20, 50, 40, 15 donde la moda de esta serie es: Mo=40.
C) Si todas las frecuencias son iguales se dice que la distribución no tiene moda y se trata
de una distribución uniforme:
20
Para datos agrupados la determinación de la definición de la moda se puede hacer de forma
geométrica así:
Mo = Moda
Lo = Limite real inferior de
la clase modal.
no = Frecuencia absoluta de
la clase modal.
f1 = Frecuencia absoluta
anterior a la clase
modal.
f2 = Frecuencia absoluta
posterior a la clase
modal.
w = Amplitud o ancho del
intervalo de clase.
Lo Mo (Lo+w+Mo)
EF EG M − L0 L0 + w − M 0 M − L0 L0 + w − M 0
= 0 = 0 =
AB DC f 0 − f1 f0 − f2 1 2
1
Para datos agrupados M 0 = LO + w
1 + 2
EJEMPLO:
1
Intervalos Universitar M 0 = LO + w.
1 + 2
ios
20
fi M 0 = 50 + 10 = 52 ,86 53
20 - 30 10 20 + 50
30 – 40 20
21
40 – 50 40
50 – 60 60
60 – 70 10
70 - 80 5
Total 145
1.7 MEDIANA
Datos no agrupados: en el cálculo de la mediana para datos no tabulados, hay que distinguir
dos situaciones: número de observaciones impar y número de observaciones par.
a. Si el número de observaciones n es impar, basta con ordenar los datos en orden de magnitud
creciente X (1) , X (2 ) ,....., X (n ) , (esto es x(1) denota a la observación más pequeña, X(2) denota a la
segunda observación menor, y X(n) denota a la observación mayor, o sea X(1) < X(2) ... < X(n)), y
tomar como valor de la mediana el valor de la observación que ocupa la posición central. Es
decir:
Me = X (n+1) / 2
Esto es válido tanto para variables continuas como para variables discretas.
22
EJEMPLO: Suponga que se tiene las observaciones: 43,51, 37, 39, 19, 24, 27. Hallar la
mediana de la muestra.
SOLUCIÓN
1. Se ordena los datos X 1 = 43, X2 = 51, X3 = 37, X4 = 39, X5=19, X6 = 24, X7 = 27, en orden
de magnitud creciente
X1 X2 X3 X4 X5 X6 X7
Me = X (7+1) / 2 = X 4 = 37
cualquiera de ellos, o cualquier valor entre estos dos. Se acostumbra tomar como mediana la
semisuma de ambos valores. Es decir
X (n / 2 ) + X (n / 2 )+1
Me =
2
EJEMPL0: Considere las observaciones muéstrales: 43, 51, 37, 39, 19, 24,27, 62.
Determinar la mediana de la muestra.
SOLUCIÓN
1. La muestra X 1 = 43, X2 =51, X3 = 37, X4 = 39, X5 = 19, X6 = 24., X7 = 27, X 8 = 62
23
2. Existen n = 8, un número par de observaciones, entonces la mediana es el promedio de
las dos observaciones centrales X(8/2) = X(4) = 37 y X ((8/2) + 1) = X(5) =39
Es decir
X (8 / 2 ) + X (8 / 2 )+1 X 4 + X 5 37 + 39
Me = = = = 38
2 2 2
En consecuencia con la definición de la mediana es fácil observar que dial representa el valor
central del conjunto de observaciones, es decir, indica la posición del centro de las
observaciones.
Para datos agrupados: la mediana se determina utilizando una fórmula derivada del gráfico de
las frecuencias absolutas acumuladas, o de las frecuencias relativas acumuladas.
La media para datos agrupados seria:
Me = Mediana
L j-1 = Limite real inferior de la clase que
contiene la mediana.
Lj = Limite real superior de la clase
que contiene la mediana.
F j-1 = La frecuencia acumulada que
corresponde a x j-1.
F j = La frecuencia acumulada que
corresponde a fj.
N/2 = La mitad de la frecuencia total.
w = El ancho de intervalo de clase.
24
N
Me − L j −1 Me − L j −1 w − F j −1
AB AC w 2
= = = Me = L j −1 + w
BD CE N F j − F j −1 N fj fj
− F j −1 − F j −1
2 2
EJEMPLO:
N
− F j −1
Edades Xi Univ. Fi 2
Me = L j −1 + w
15 – 19 17 5 5 fj
20 – 24 22 10 15 50
25 – 29 27 20 35 − 15
Me = 24 ,5 + 2 5 = 27
30 – 34 32 10 45 20
35 – 40 37 5 50
Total 50
Donde Fj − Fj −1 = f j
1.8 FRACTILES
N
(n) − F j −1
Cuartil: Me = L j −1 + 4 w Donde n indica la posición
fj del fractil.
25
N
(n) − F j −1
Decil: Me = L j −1 + 10 w
fj
N
(n) − F j −1
Percentil: Me = L j −1 + 100 w
fj
1.8.1 CUARTILES
Son los que dividen la serie o el histograma de frecuencias en cuatro partes iguales.
Son los valores de la variable que dividen en cuartos a los datos ordenados en forma ascendente
o descendente en cuatro partes iguales; y se denotan Qi , i=1,2,3 .
Cada conjunto de datos posee tres cuartiles. El primer cuartil Q1, es el número tal que cuando
mucho el 25 % de los datos es menor en valor que Q1 y cuando mucho el 75% de de los datos
es mayor que Q1. El segundo cuartil es la mediana. El tercer cuartil, Q3, es el número tal que
cuando mucho el 75% de los datos es menor en valor que Q3 y cuando mucho el 25% de datos
es mayor que Q3. (Según el cuadro)
N
(n) − F j −1
Cuartil 1
Q1 = L j −1 + 4 w
f q1
26
Siendo:
N
(2) − F j −1
Cuartil 2 Q2 = L j −1 + 4 w
f q2
N
Cuartil 3 (3) − F j −1
Q3 = L j −1 + 4 w
f q3
EJEMPLO
La tabla muestra una distribución de frecuencias de puntuaciones de un examen final de
álgebra, (a) Hallarlos cuartiles de la distribución y (b) interpretar su significado.
27
Solucion
30 − 15
Q1 = 60 + 10 = 67
21
60 − 36
Q2 = 70 + 10 = 75
43
90 − 79
Q3 = 80 + 10 = 83
32
1.8.2 QUINTILES
Son los que dividen una serie o un histograma de frecuencias en cinco partes iguales se denota
por “T”
N 2N 3N 4N
5 − F j −1 5 2 − F j −1 5 3 − F j −1 5 4 − F j −1
T1 = Li + w j ; T2 = Li + w j ; T3 = Li + w j ; T4 = Li + w j
f r1 f r2 fr3 f r4
1.8.3 DECILES
Son los que dividen una serie o un histograma de frecuencias en diez partes iguales se denota
por “D”
28
N 2N 5N
10 − F j −1 10 2 − F j −1 10 5 − F j −1
D1 = Li + w j ; D2 = Li + w j ;........; D5 = Li + w j
f D1 f D2 f D5
5N N
El decil quinto es la mediana ya que: =
10 2
Ejemplo 2. Calcular los deciles para la misma tabla del ejemplo anterior.
Límite Límite
Frecuencia
No. inferior superior Frecuencia
acumulada
($) ($)
1 250 259.99 8 8
2 260 269.99 10 18
3 270 279.99 16 34
4 280 289.99 14 48
5 290 299.99 10 58
6 300 309.99 5 63
7 310 319.99 2 65
Al igual que para los cuartiles, lo primero que tenemos que hacer es saber en qué intervalo o
clase quedará el primer decil, en él hay incluidos 1/10 N = 65/10 = 6.5 elementos, ¿cuál es la
primera clase que su frecuencia acumulada es mayor a 6.5?, vemos que la primera clase tiene
una frecuencia acumulada de 8, entonces en este intervalo está el primer decil, así:
N 2N 5N
10 − F j −1 10 2 − F j −1 10 5 − F j −1
D1 = L1 + w j ; D 2 = L2 + w j ;........; D5 = Li + w j
f D1 f D2 f D5
29
Di = Li + (wj) [ (d N/10) - (Fj-1) ] / [ Fj - (Fj-1) ]
Sustituyendo valores:
D1 = $258.12
El segundo decil abarca: (2/10)(65) = 13 elementos. Quedará en el segundo intervalo, esto es:
D2 = 260 + (10) [ 13 - 8 ] / [ 18 -8 ]
D2 = 260 + 5
D2 = $265.00
D3 = 270 + 0.9375
D3 = $270.94
D4 = $275.00
Siguiendo con el mismo procedimiento, obtenemos los deciles restantes. Se dejan al lector
como ejercicio.
D5 = $279.06
D6 = $283.57
D7 = $288.21
D8 = $294.00
30
D9 = $301.00
Conclusiones:
1.8.4 PERCENTILES
Son valores que dividen a la población en cien partes iguales (de forma ascendente o
descendente). Los representamos por Pi ; i= 1,2,…., 99. Evidentemente los percentiles 25, 50 y
75 coinciden con los cuartiles. Y los percentiles 10, 20 , ... , 90 coinciden con los deciles. Se
tiene entonces, el esquema siguiente:
N 50 N 99 N
100 − F j −1 100 − F j −1 100 − F j −1
P1 = Li + w j ;...; P50 = Li + w j ;...; P99 = Li + w j
f p1 f p 50 f p 99
Notas:
31
PRIMER PERCENTIL = P1: es el valor que supera a no más de un céntimo de las
observaciones y es superado por no más de 99 centécimos de ellas. O equivalentemente, P1 es
el valor que deja 1 % de las observaciones menores o iguales a él y el 99% superiores a él.
SEGUNDO PERCENTIL = P2: Es el valor que supera a no más de dos centécimos de las
observaciones y es superado por no más de 98 centécimos de ellas. En otras palabras, P 2, es el
valor que deja 2% de las observaciones menores o iguales a él y el 98% superiores a él.
Así, sucesivamente.
NOVENTA Y NUEVE AVO PERCENTIL = P99: es el valor que supera a no más de 99
centécimos de las observaciones y es superado por no más de 1 centécimo de ellas. O en forma
equivalente, P99 es el valor que deja 99% de las observaciones menores o iguales a él y el 1%
superiores a él.
En estadística el término percentil, se emplea para indicar en una distribución, el valor por
debajo del cual está situado un cierto porcentaje de la distribución de valores observados. Así,
al decir que en una distribución de estatura de un grupo de estudiantes, el percentil 40 es 148.2
cm. (P40 = 148.2 cm.), se está afirmando que el 40% de los estudiantes miden menos de 148.2
centímetros.
PERCENTILES
Son los que dividen una serie o un histograma de frecuencia en cien partes iguales. se denota
por “P”
Son los valores de la variable que dividen a un conjunto de datos ordenados en 100
subconjuntos iguales; cada conjunto de datos tiene 99 percentiles (consulte la figura siguiente),
El k–ésimo percentil, Pk, es un valor tal que cuando mucho k % de los datos son mas
pequeños en valor que Pk y cuando mucho (100 – k )% de los datos es mayor.
32
Datos clasificados en orden creciente
N 50 N 99 N
100 − F j −1 100 − F j −1 100 − F j −1
P1 = L1 + w j ;...; P50 = L1 + w j ;...; P99 = L1 + w j
f p1 f p 50 f p 99
50 N N
La mediana es el percentil cincuenta ya que: =
100 2
Notas:
Paso 1
Ordenar los datos n, del más chico al más
Paso 2 grande
Calcular: Nk
100
100
33
SALARIOS NUMERO DE Fi
POR DIA EMPLEADOS
50 – 60 8 8
60 – 70 10 18
70 – 80 16 34
80 – 90 14 48
90 – 100 10 58
100 –110 5 63
110 – 120 2 65
TOTAL 65
c) Calcular el 3 decil.
N 65
(n) − F j −1 3 − 18
D3 = L j −1 + 10 w D3 = 70 + 10 10 = 70,9375
fj 16
A) Calcular 5 percentil.
N 65
(n) − F j −1 5−0
P5 = L j −1 + 10 w P5 = 50 + 100 10 = 54,0625
fj 8
34
2. MEDIDAS DE VARIABILIDAD
Las medidas de tendencia central que se describen en él capitulo anterior, son útiles para la
identificación de un valor típico en un grupo de valores. Por el contrario, las medidas de
dispersión o variabilidad describen un grupo de valores en función de la variación o dispersión
de los datos incluidos en ese grupo. Existen varias técnicas para medir el grado de dispersión en
los conjuntos de datos en este capitulo describiremos: La desviación media, la desviación
intercuartilica, la varianza y la desviación típica.
Es un estadígrafo sumamente sencillo pero frecuentemente influido por sus valores extremos,
descuidando los valores intermedios, por cuyo motivo su aplicación se restringe a una parte
especializada de la estadística, conocida como el control de calidad, y utilizado frecuentemente
en el sector industrial.
Se define como:
LA DIFENENCIA DEL VALOR MAS ALTO DE LA VARIABLE Y EL VALOR MAS
BAJO PARA UNA SERIE. PARA DATOS AGRUPADOS, ES LA DIFERENCIA ENTRE
EL LIMITE SUPERIOR DE LA ULTIMA CLASE, Y EL LIMITE INFERIOR DE LA
PRIMERA”
R = X max − X min
R = Lsm − Li1
Es la diferencia entre cada valor del conjunto de datos y la media del grupo. Si se calculara la
media de la suma de diferencias más o menos entre cada valor y la media aritmética, la
respuesta en realidad siempre seria cero. Por esta razón, se suman los valores absolutos de las
diferencias. Es decir que, la desviación media son los promedios absolutos de los valores de la
variable con respecto a su media aritmética.
35
n
| X
j =1
j −X | PARA DATOS SIMPLES
DM =
n
| X
j =1
j − X | fj
PARA DATOS AGRUPADOS
DM =
n
EJEMPLO:
DMe = M X j − Me
36
n
X
j =1
j − Me PARA UNA SERIE SIMPLE
DMe =
n
f
j =1
j X j − Me PARA DATOS AGRUPADOS
DMe =
n
RELACION GENERAL
DMe DM S
EJEMPLO:
Hallar la desviación mediana de los pesos de los niños 15, 12, 10,18, 14, 22, 17,20 .
SOLUCIÓN
1. En primer lugar se determina la mediana de los datos: Las observaciones escritas en forma
ascendente son:
10 12 14 15 17 18 20 22
15 + 17
Me = = 16
2
2. Se halla las desviaciones de cada observación con respecto a la mediana y luego, se toma el
valor absoluto de éstas.
37
3. Se suma los valores absolutas de las desviaciones y se divide esta suma entre el número de
observaciones.
Los pasos (2) y (3) están resumidos en la Tabla adjunta.
X
j =1
j − Me
26
DMe = = = 3.25
n 8
Frente a las desventajas del recorrido, algunos investigadores han sugerido como su alternativa
el estadígrafo denominado RECORRIDO SEMI-INTERCUARTILICO o también ERROR
PROBABLE, definido como:
Es una medida de dispersión que solo depende de dos valores que están situados en la mitad
central de los datos. Este indicador se usa cuando otras medidas de dispersión son afectadas
seriamente por los valores extremos o cuando se trata de distribuciones asimétricas.
38
Q − Q1 Q3 − Q1
Es decir Q=
EP = 3 2
2
RELACION GENERAL:
EP<= DM<=S
EJEMPLO:
N 50
= = 12,5
4 4
Edades xi fi Fi 12,5 − 5
Q1 = 19,5 + 5 = 23,25
10
14,5-19,5 17 5 5 N 50
3 =3 = 37,5
19,5-24,5 22 10 15 50 4
37,5 − 35
Q3 = 29,5 + 5 = 30,75
24,5-29,5 27 20 35 10
29,5-34,5 32 10 45
Q3 − Q1
34,5-40,5 37,5 5 50 EP =
2
50 30.75 − 23.25
EP =
2
EP = 3.5
39
2.5 VARIANZA.
Es una medida de dispersión, que mide la agrupación de los datos, al rededor de la media
aritmética, conocida también como el segundo momento central.
Según el concepto: Las diferencias de X j − X , nos darían las distancias entre los datos
observados y la media aritmética, pero la suma de estas diferencias serian siempre cero, por lo
que es necesario, hallar una forma en que esta suma no sea cero, por lo que se propone sumar
los números absolutos de estas diferencias así: | X j − X |, luego el promedio de estas
n
X
j =1
j −X
diferencias seria: DM = ; que como ya hemos visto es conocida como desviación
n
media. Pero otra manera de evitar los números negativos, para evitar la suma cero seria, elevar
las diferencias al cuadrado de la siguiente manera: ( X j − X )2, el promedio de estas
diferencias seria:
Aclarando:
S 2 =Varianza de la muestra
2 = Varianza de la población
En general
V(X) =Varianza de X
(X − X)
n
2 PARA DATOS NO AGRUPADOS
j
j =1
S2 =
n
(X − X) fj
m
2
PARA DATOS AGRUPADOS
j
j =1
S2 =
n
40
EJEMPLO:
1352
. ,5
x= = 27,05
50
155111
. ,
s2 = = 31,02
50
Es decir S = V (X )
i=N
(x − x ) fi
2
i
S= i =1
S = 31,02 = 5,57 .
N
41
PROBLEMA.
SOLUCIÓN:
(X − X ) = 1.250
n
j
j =1
X 2j = 5.000
n = 50
X =?
( )
2
42
Si:
n
X j n n n n n
nX = X j X 2j − 2 XnX + X 2 = 1.250 X 2j − 2nX 2 + X 2 = 1.250
j =1
X=
n i =1 j =1 j =1 j =1 j =1
Luego:
n
5.000 − 1.250
X
j =1
2
j − nX 2 = 1.250 5.000 − 50 X = 1.250 X =
50
= 8,66
PROPIEDADES DE LA VARIANZA:
(c − c )
2
j =1
c, c, c X = c; cj Luego: S 2 = =0
n
(X − X)
n
2
i
j =1
X 1 , X 2 , X 3 ,......X m S 2 =
n
Luego:
c(X
2
(cX − cX ) − X) c 2 (X j − X )
n n n
2 2
j j
j =1 j =1 j =1
cX 1 , cX 2 , cX 3 ,......cX m S c2 = S c2 = S c2 =
n n n
Entonces:
43
S c2 = c 2 S 2
3) Si a los valores de una serie estadística se suma una constante c la varianza de la serie
no cambia.
(X − X)
n
2
j
j =1
X 1 , X 2 , X 3 ,......X m S 2 =
n
(X + c ) − (X + c ) (X + c − X − c )
n n
2 2
j j
j =1 j =1
X 1 + c, X 2 + c, X 3 + c,......X m + c S c2 = S c2 =
n n
(X − X)
n
2
j
j =1
Luego: S c2 = S c2 = S 2
n
CV X = (100)
S
X
CVMe =
S
(100)
Me
CVMo =
S
(100) 44
Mo
EJEMPLO:
Si S = 431.19
X = 805.3
CVX =
S
(100) = 431.19 (100) = 53.54402%
X 805.3
CVX = 53.54%
En una distribución de frecuencias, es necesario conocer la forma de la misma, por tanto, se puede
medir el apuntamiento o simetría por diferentes métodos, en este tema explicaremos algunos como ser:
(+) (-)
Mo Me X
ASIMETRIA POSITIVA X Mo Me
ASIMETRIA NEGATIVA
(Mo < X )
(Mo > X )
45
ESTADÍGRAFOS DE APUNTAMIENTO O CURTOSIS
Mo = X = Me Mo = X = Me
APUNTADA Mo = X = Me NORMAL
APLANADA
Definición:
X − Mo
Sk =
S
Interpretación:
Sk=0 La distribución es simétrica.
Sk>0 La distribución es sesgada a la derecha
Sk<0 La distribución es sesgada a la izquierda.
EJEMPLO:
46
40,51 − 41,17
Sk = = −0,127 La distribución es sesgada a la izquierda.
5,18
DEMOSTRACIÓN GRÁFICA:
Para evitar el uso de la moda, podemos recurrir a la formula empírica, llamada también
segundo coeficiente de Pearson.
3(X − M e )
SP =
S
EJEMPLO:
N 370
= = 185
2 2
185 − 150
M e = 39 ,5 + 5 = 40 ,67
150
47
3.3 CURTOSIS (Apuntamiento)
La curtosis, mide cuan putiaguda es una distribución, en general, por referencia a la normal, si
tiene un pico alto(leptocurtica), si es aplastada (platicurtica), o si es normal(mesocurtica), este
coeficiente viene definida por:
1
(Q3 − Q1 )
K= 2
P90 − P10
Interpretación:
EJEMPLO:
Sueldos Nº de xi Fi 370
= 92,5
Bs. Empleados 4
30 – 34 50 32 50 92,5 − 50
Q1 = 34,5 + 5 = 36,625
35 – 39 100 37 150 100
40 – 44 150 42 300 370
3 = 277,5
45 – 49 50 47 350 4
50 – 54 20 52 370 277,5 − 150
Q3 = 39,5 + 5 = 43,75
370 150
370
10 = 37
100
37 − 0
P10 = 29,5 + 5 = 30,24
50
370
90 = 333
100
333 − 300
P90 = 44,5 + 5 = 47,8 48
50
1
(43,75 − 36,625)
K= 2 = 0,203
47,8 − 30,24
La distribución de frecuencias es mesocurtica o tiene tendencia mesocurtica.
3.4 MOMENTOS
(X
j =1
j − A) r PARA DATOS NO
m= AGRUPADOS
n
f
j =1
j ( X j− A) r PARA DATOS
AGRUPADOS
m=
n
Los momentos mas usados son dos, respecto al origen y respecto a la media llamado también
momento central.
m
Es decir si:
f j =1
j ( X j − A) r
ar =
n
49
m m
f j ( X j − 0) r f
r
j Xj
j =1 j =1
Donde A═0 a r = =
n n
m
Es decir si: fj =1
( X j− A) r
j
mr =
n
m
fj =1
j ( X j − X )r
Donde A = X mr = donde r es el momento r-esimo respecto a la media.
n
j =1
f j ( X j − X )2
m2 = =S2
n
m2 = S2 momento central de segundo orden (varianza)
Cuando r = 3
m
j =1
f j ( X j − X )3
m3 =
n
Y así sucesivamente.
50
BIBLIGRAFIA
• [Link]
• [Link]
erada
51