MEDIDAS DE RESUMEN O
ESTADISCTICO
Luis Alberto Chirinos Rueda
Estadístico
COESPE Nº 511
Es un valor o medida resumida cuando se trabaja con los datos de una muestra.
Entre los principales estadísticos tenemos:
Estadístico de Posición Central
Estadístico de variación o dispersión o desviación
Estadístico de Asimetría o de Deformación
Estadísticos de Apuntamiento o Curtosis
ESTADÍSTICO O ESTADÍGRAFO
Son valores resumidos de una muestra que tienden a posicionarse en el centro
de los valores ordenados de una variable.
Entre los principales estadísticos de posición central tenemos
Promedio
Mediana
Moda
ESTADÍSTICO DE POSICIÓN CENTRAL
PROMEDIO O MEDIA ARITMÉTICA O
SIMPLEMENTE MEDIA
Es la medida de resumen o estadístico principal de Posición Central porque ayuda a desarrollar la
teoría estadística
Se define como la suma de los valores de una variable cuantitativa (discreta o continua) dividido
entre el tamaño total de la muestra (n)
Se simboliza por X o M(x)
n
Fórmula para datos sin tabular es decir sin llevar a una
tabla de distribución de frecuencias
i=1 n
Ejemplo sea X el símbolo que representa la edad en años de una muestra de 10
personas entonces tenemos Xi el sub índice i varia desde 1 a 10
X1=23, X2=25, X3=27, X4=23, X5=28, X6=26, X7=25, X8=24, X9=25, X10=26
Se lee X1=23 la edad de la primera persona es 23 años
Entonces, como los datos de la variable edad no están tabulados el promedio se
calcula utilizando las primera fórmula de la siguiente manera:
X= X1 + X2 + X3+ X4 + X5+ X6 +X7 + X8 + X9 + X10
n
X= 23 + 25 + 27+ 23 + 28+ 26 +25 + 24 + 25 + 26 = 252 =25.2 aproximadamente 25
10 10
Interpretación: las 10 personas tienen en promedio 25 años
Calculando en Excel tenemos
INGRESAR A UNA HOJA DE CÁLCULO DE EXCEL E INGRESAMOS LOS DATOS DE LA
VARIABLE X DE LA SIGUIENTE MANERA EN LA CELDA SIGUIENTE DEL ÚLTIMO VALOR DE
LA VARIABLE SE ESCRIBE = PROMEDIO(E6:E15) RANGO DE LAS CELDAS DONDE ESTÁN
LOS VALORES Y PRESIONAR EL BOTÓN ENTRAR Y SALDRÁ EL RESULTADO
Xi
23
25
27
23
28
26
25
24
25
26
=PROMEDIO(E6:E15) 25.2
FÓRMULA PARA DATOS TABULADOS
n
*fi
i=1 n
Donde Xi son los distintos valores de la variable o la marca de clase o punto medio en una
tabla con intervalos de clase
Donde fi son las frecuencias absolutas simple
n
*hi donde hi=frecuencias relativas
i=1
EJEMPLOS
La siguiente tabla representa al número ingenieros procedentes de la URP que trabajan
en una muestra de empresa metalmecánica de Lima Metropolitana(n=23)
Xi= número de ingenieros procedentes de la URP
Xi fi ∑Xi*fi
0 3 0
1 5 5
2 10 20
3 2 6
4 3 12
23 43
redondeando a
Promedio (X)= ∑Xi*fi 43 1.86 2
n 23
Interpretación: las 23 empresas metalmecánicas investigadas en promedio tienen 2 ingenieros
procedentes de la URP
la siguinte tabla representa al tiempo(en minutos) de demora de 35 estudiantes del curso de estadística y
probabilidades en resolver un problemas de estadística en el software SPSS
Xi-1' Xi' Xi fi ∑Xi*fi
1 5 3 5 15
5 9 7 8 56
9 13 11 11 121
13 17 15 9 135
17 21 19 2 38
35 365
Promedio (X)= ∑Xi*fi 365 10
n 35
Interpretación: Los 35 estudiantes se demoraron en resolver un problema de estadística un en tiempo promedio
de 10 minutos en el software SPSS
PROPIEDADES
1. Si los valores originales de una variable son iguales a una contante K entonces el promedio de la variable es igual a al constante K
X1=K, X2=K, X3=k,…….. Xn=K
Promedio(X=K)= M(X=K) = K todos tienen 15 soles en el bolsillo K=15
En este momento entonces en promedio tos tienen 15 soles
2. Si a los valores originales de una variable se le multiplica por una contante K entonces el promedio de los valores modificados es
igual al promedio de los valores originales multiplicado por constante K
kX1, kX2, KX3=……., KX9, KXn tiene promedio(X)
Promedio(X)= M(X) = K todos tienen 15 soles en el bolsillo K=15
M(KXi) = promedio de (X)* K
Si los ingenieros de una Industria venían ganado hace 10 años mensualmente 2500,3000, 2800
2530, 2640 entonces Xi =sueldo mensual y su promedio actual de 2694 mensual. Nominaron a uno de ellos para Coordinara con la
gerencia general un incremento en sus mensualidades acordándose
Un incremento del 20 % del total de sus haberes ¿Cuál sería el nuevo promedio con este Incremento?
2500
El incremento de Xi= Xi+0.20Xi = 1.20Xi entonces la constante k=1.20 2530
M(KXi) = promedio de (X)* K = 2694*1.20 = 3232.8 el nuevo 3000
promedio con incremento del 20% de total de sus haberes 2800
mensual 2640
Promedio mensual 2694
3. Si a los valores originales de una variable se le suma o se le resta una contante K entonces el promedio de los
valores modificados es igual al promedio de los valores originales + o –la constante K según sea el caso
X1+-K, X2+-K, X3+-K……., Xn+-K, tiene promedio(X)
Promedio(X+-k)= M(X+-k) = promedio(X) +- K
Si los ingenieros de una Industria venían ganado hace 10 años mensualmente 2500,3000, 2800
2530, 2640 entonces Xi =sueldo mensual y su promedio actual de 2694 mensual. Nominaron a uno de ellos para
Coordinara con la gerencia general un incremento en sus mensualidades acordándose
Un incremento del 150 soles para todos iguales ¿Cuál sería el nuevo promedio con este Incremento?
El incremento de Xi= Promedio(X)+150 = 2694+150=2844 el Nuevo promedio
4. Si a los valores originales de una variable se le divide en subgrupos, clases o estratos entonces el promedio total
es igual a la suma de los productos del promedio de cada estrato por el tamaño dividido entre el total de la muestra
L
E1 n
n1 X1
XT= ∑ Xi*ni/n
XT = X1*n1+ X2*n2+ X3*n3 i=1
E2 n2 X2 n L= Número de estrato
Estrato es un sub conjunto de elementos de
la muestra que son homogéneos
E3 n3 X3
UTILIZACION DEL PROMEDIO
Se utiliza el promedio cuando los valores de una variable cuantitativa son homogéneos(parecidos) no
hay mucha diferencia entre ellos ejemplo 0,1,2,3, 4…..
Cuando la tabla son
Cerrada en el inicio como en el último intervalo de clase
No en este caso
En este caso si
[Xi-1' Xi') fi [Xi-1' Xi‘) Xi fi ∑Xi*fi
1 5 3 5 15
menos de 5 5 5 9 7 8 56
5 9 8 9 13 11 11 121
9 13 11 13 17 15 9 135
13 17 9 17 21] 19 2 38
35 365
mayor que 17 2
35
LA MEDIANA (ME)
Es el mejor estadístico de posición central porque en su cálculo no esta afectada por los valores
extremos
Se define como aquel valor que se sitúa en el centro de la distribución de valores ordenados de la
variable en estudio y divide en dos partes iguales la distribución. El 50 % del total de valores de la
variable menor que la mediana y el otro 50% de valores mayores que la mediana.
50%
50%
Xi
Me
Cálculo de la Mediana(Me)
Primero debo ordenar los datos de menor a mayor
A) Para datos sin Tabular
A1 Cuando los valores de una variable es un número impar la mediana Me es el valor que está en el centro
de los valores ordenados. Ejemplo:
Valormin X1 , X2 , X3 , X4 ,X5 Valor Max
Me= X3
Ejemplo se tiene las edades de 5 ingenieros 35, 45, 56, 33, 50 primero ordenamos
33 35 45 50 56
Me= 45
A2 Cuando los valores de una variable es un número par la mediana Me es el promedio de los valores centrales de
los valores ordenados de la variable. Ejemplo:
Valormin X1 , X2 , X3 , X4 ,X5 ,X6 Valor Max
Me= (X3+ X4)/2
Ejemplo se tiene las edades de 6 ingenieros 35, 45, 56, 33, 50 36 primero ordenamos
34 35 36 45 50 56
Me= (36+45)/2=40.5
Cálculo de la Mediana (Me) en Excel usando la función mediana (E89:E95)
Xi
35
45
56
33
50
36
=MEDIANA(E89:E95) 40.5
B) Para datos Tabulados
B1 de la forma siguientes
La siguiente tabla representa al número ingenieros procedentes de la URP que trabajan
en una muestra de empresa metalmecánica de Lima Metropolitana(n=23) y nos
piden calcular el número mediano de ingenieros por empresa
Xi= número de ingenieros procedentes de la URP Procedimiento
Xi fi Fi 1.- Se calcula los Fi
0 3 3 2.- Calcular n/2´par saber hasta donde esta el 50
1 5 8 % acumulado =23/2 =11.5
2 10 18 3.- Luego se comprar n/2 entre los valores Fi y
3 2 20 se observa que n/2 o sea 11.2 se encuentra entre
4 3 23 2 valores 8 y 18 entonces a Fi-1 = 8
23 Fi = 18 a esta frecuencia se le llama frecuencia
mediana Fi-1< n/2< Fi
4.-Entonces la Me es igual valor de la variable
que pertenece a Fi y esto es 2
Interpretación = El 50 % del total de empresas tienen 2 o menos ingenieros procedentes del la URP ; en
tanto que el otro 50% tienen 2 o más ingenieros procedentes de la URP
B2 de la forma siguiente
La tabla representa el tiempo(en minutos) de demora 35 estudiantes del curso de estadística y
probabilidades en resolver un problemas de estadística en el software SPSS
Procedimiento
1.- Se calcula los Fi
[Xi-1' Xi‘) Xi fi Fi 2.- Calcular n/2´par saber hasta donde esta el 50 % acumulado
1 5 3 5 5 =35/2 =17.5
5 9 7 8 13 3.- Luego se comprar n/2 entre los valores Fi y se observa que
9 13 11 11 24 n/2 o sea 17.5 se encuentra entre 2 valores 13 y 24 entonces a
13 17 15 9 33 Fi-1 = 13
17 21] 19 2 35
Fi = 24 a esta frecuencia se le llama frecuencia mediana
35
Fi-1< n/2< Fi
4.-Entonces la Se me calcula utilizando la siguiente sfórmula
Reemplazando en la fórmula tenemos Me= Xi-1’ + Ci *(n/2- Fi-1)/(Fi - Fi-1)
Me= 9 + 4 *(17.5- 13)/(24-13)=10.636 =11
Interpretación: el 50% del total de Donde: Xi-1’ es el extremo inferior del intervalo que pertenece
estudiantes se demoraron en resolver el a Fi del ejemple el intervalo es [9 13) y Xi-1’ =9
problema de estadística 11 minutos o menos
Ci es la amplitud del intervalo que pertenece a F i
en tanto que el otro 50 % se demorraron 11
minutos o más Ci =13-9 = 4
LAS PROPIEDADES SON LAS MISMA DE LA MEDIA ARITMÉTICA
UTILIZACION DEL MEDIANA
Se utiliza LA MEDIANA cuando los valores de una variable cuantitativa son heterogéneas hay
mucha diferencia entre ellos ejemplo 0,1,2,3, 40, 34…..
Cuando la tabla es de la siguiente manera
Cuando se quiere calcular sueldo ingreso
[Xi-1' Xi') fi promedio y estos son valores heterogéneos
menos de 5 5
5 9 8
9 13 11
13 17 9 Es la única medida que se posiciona en
el centro de la distribución de datos
mayor que 17 2 ordenados
35
LA MODA (MO)
Se define como el valor que más se repite en un conjunto de valores ordenados de una variable
cuantitativa
Es el valor más frecuente en una tabal de distribución de frecuencia
La moda puede existir o no en un conjunto de datos si existe pueden haber más de una moda
Cálculo de la moda
A) Para datos sin tabular
Se debe ordenar los datos de menor a mayor, luego ver cual de los valores se repite más ese es la
moda
Ejemplo
a) 1, 2, 3, 1, 2,,1,2,1,3 ordenando 1,1,1,1,2,2,2,3,3 entonces la Mo=1
Cálculo de la Moda (Mo) en Excel usando la función Moda (E89:E95
Xi Xi
1 1
2 2
3 3
1 1
2 2
1 1
2 2
1 4
3 3
=MODA(I90:I98) 1 =[Link](M90:M98) 1 2
Hay dos modas 1 y 2 Excel
presenta una de ellas la de menor
valor
Nota las funciones promedio, mediana y moda de Excel se utilizan para datos sin tabular; cuando se
tiene tabulados se utiliza las fórmulas
b) 1, 2, 3, 4,5 entonces no existe Mo todos se repiten una sola vez
c) 1, 2, 5, 6,,1,2,,4, 3 ordenando 1,1,2,2,3,4,5,6 entonces la Mo=1 y 2
ha esta distribución de datos se le llama distribución bimodal, aquellas distribuciones que tienen 3 o más
Mo se le llaman distribución multimodal
B) Para datos tabulados de la forma:
Xi= número de ingenieros
procedentes de la URP Procedimiento
Xi fi 1. Determinar la mayor frecuencia fi=10 a esta frecuencia se le
0 3 llama frecuencia modal
2. Entonces la Mo es el valor de la variable que pertenece a fi
1 5
por lo tanto la MO=2
2 10
3 2
Interpretación: La mayoría de la empresas tienen 2 ingenieros
4 3
procedentes de la URP
23
B) Para datos tabulados de la forma:
La tabla representa el tiempo(en minutos) de demora 35 estudiantes del curso de estadística y
probabilidades en resolver un problemas de estadística en el software SPSS
[Xi-1' Xi‘) fi Procedimiento
1 5 5 1ro. Se determina la Frecuencia Modal(fi ), la cuál es la
5 9 8 mayor de todas. Fi=11
9 13 11 2do Se determina la Frecuencia inmediata inferior a fi
13 17 9 llamada fi-1=8 y la frecuencia inmediata superior a fi
17 21] 2 llamada fi + 1=9
35 3ro Se calcula 1= fi - fi-1=11-8=3 2= fi - fi + 1=11-9=2
4to. Luego de determinará el Intervalo Modal (IMo) el cuál
corresponde a fi [9 – 13)
5to. El límite inferior X ‘ i-1=9 y la amplitud Ci del IMo
C=13-9=4
Reemplazando los valores en la fórmula Se utilizará en la siguiente formula de la mediana
tenemos:
Mo=9+4*(3/(3+2))=11.4
Interpretación: la mayoría de los estudiantes se Mo = X’i-1 + Ci * 1
demoraron 11.4 minutos en resolver el 1 + 2
problema de estadística en el software SPSS
MEDIDAS DE AGRUPACIÓN
Cuartiles ( Qi ) son tres puntos que dividen en cuatro partes iguales al conjunto de datos
ordenados. Entre cuartil y cuartil existen el 25% del total de datos
25% 25% 25% 25%
Xmin Xmax
Q1 Q2 Q3
Q1 :cuartil 1 o inferior deja atrás el 25 % del total de valores de la variable
Q2 :cuartil 2 o Central deja atrás el 50 % del total de valores de la variable=Me
Q3 :cuartil 3 o Superior deja atrás el 75 % del total de valores de la variable
Fórmula para calcular cualquier cuartil
Procedimiento
Qi= Xi-1’+ Ci* (in/4- Fi-1)/(Fi – Fi-1) 1.- Se calcula los Fi
[Xi-1' Xi‘) fi Fi
2.- Calcular in/4 =1*35/4 =8.75
1 5 5 5
3.- Luego se comprar in/4 entre los valores Fi y se observa que in/4 o
5 9 8 13
sea 8.75 se encuentra entre 2 valores 5 y 13 entonces a Fi-1 = 5
9 13 11 24 Fi = 13 a esta frecuencia se le llama frecuencia cuartílica
13 17 9 33 Fi-1< n/2< Fi
17 21] 2 35 4.-Entonces la Qi se calcula utilizando la fórmula
35 5. Se determina el Intervalo Cuartílico y es el que pertenece a F i
[5 - 9) Xi-1’=5 Ci=4
Remplazamos en al fórmula tenemos.
Qi=5+ 4*((8.75-5)/(13-5))=6.88
El 25% del total de estudiantes se demoraron en resolver el problema
de estadística en el software SPSS 6.88 minutos o menos
Para datos sin tabular los cuartiles se
calculan utilizando las funciones:
Q1 =cuartil( A5:A15; 1)
Q2 =cuartil( A5:A15; 2) Tarea: Calcular los cuartiles para una tabla sin intervalos de
Q2 =cuartil( A5:A15; 3) clase
FÓRMULA PARA CALCULAR CUALQUIER PERCENTIL
Pi= Xi-1’+ Ci* (in/100- Fi-1)/(Fi – Fi-1)
Procedimiento
1.- Se calcula los Fi
[Xi-1' Xi‘) fi Fi 2.- Calcular in/100 =97*35/100 =33.95
1 5 5 5 3.- Luego se comprar in/100 entre los valores Fi y se observa que 97*n/100 o
5 9 8 13 sea 33.95
9 13 11 24 se encuentra entre 2 valores 33 y 35 entonces a Fi-1 = 33
13 17 9 33
Fi = 35 a esta frecuencia se le llama frecuencia percentílica
17 21] 2 35
Fi-1< n/2< Fi
35
4.-Entonces la Pi se calcula utilizando la fórmula
5. Se determina el Intervalo Percentílico y es el que pertenece a F i
[17 - 21] Xi-1’=17 Ci=4
Remplazamos en al fórmula tenemos.
Para datos sin tabular la función que se Pi=17+ 4*((33.95-33)/(35-33))=18.9
utiliza en Excel El 97% del total de estudiantes se demoraron en resolver el problema
Es: de estadística en el software SPSS 18.9 minutos o menos
P97= percentil(A95:A105;0.97)
Medidas o Estadígrafo o Estadístico de Dispersión de Variación o de Desviación
Es un valor que mide el grado de variabilidad de las observaciones al rededor de un valor central o de posición.
Los principales son: rango, varianza, desviación estándar rango inter cuartílico Rango Semi Inter cuartílico y
Coeficiente de Variación.
Existen distribuciones que siendo diferentes, tienen valores iguales para algunos de sus estadígrafos de posición , por ejemplo:
A) 3, 7, 4 6, 67, 81 X =40.8 Me=46
B)15, 38, 46, 52, 53 X =40.8 Me=46
Los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a conclusiones
equivocadas cuando se está comparando grupos o poblaciones.
¨Para superar estas limitaciones se construyen otros estadígrafos que analizan la variabilidad de los datos respecto a un
valor central
Los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a conclusiones equivocadas cuando se está
comparando grupos o poblaciones.
¨Para superar estas limitaciones se construyen otros estadígrafos que analizan la variabilidad de los datos respecto a un valor central.
El Rango o recorrido: se define como la diferencia entre el valor mayor y el menor de un conjunto de datos. Se simboliza por R
R = Xmáx - Xmín
Del ejemplo anterior tenemos que:
Para el grupo A) R= 81-3=78 y B) R=53-15=38
Significa la diferencia entre el mayor y menor valor.
El rango es muy limitado, pues solo considera los valores extremos y no dice nada como varían los valores intermedios.
La Varianza
Es el más importante de los estadígrafos de variación y se define como el promedio del cuadrado de las desviaciones respecto a su media.
Se simboliza por S2 o por V(X).
Fórmula de cálculo
n
para muestra pequeñas
S2 = V(X) = (Xi - X )2 Formula para datos sin tabular
o sea n 30
i=1
n-1
n
S = V(X) = (Xi - X )2
2 para muestra grandes o sea n> 30
i=1
n
Formula para datos tabulados
n
S = V(X) = (Xi - X )2*fi
2
i=1
n
n
S = V(X) = (Xi - X )2*hi
2
i=1
S2 esta varianza se puede calcular en la hoja de Excel, utilizando la función
=var.s(B2:B10) calcula la varianza de una muestra.
Desviación estándar
Es la raíz cuadrada de la Varianza. Simboliza por S
S = S2 esta desviación estándar se puede calcular en la hoja de Excel, utilizando la función
=DESVEST.M(B2:B10) en función de los datos de una muestra.
A la desviación estándar se le conoce como la variación promedio
Este estadígrafo es de mayor uso: para comparar grupos.
Una de las aplicaciones importante es analizar la dispersión a partir de una distribución teórica
llamada curva normal. Cuando n es grande(n>30), la distribución de los n valores es
aproximadamente simétrico o tiene la forma de una curva normal, en estas condiciones se sostiene
que:
68%
1. El 68% del total de valores estarán
comprendido dentro del intervalo (X-S , X+S)
2. El 95.5% del total de valores estarán 95.5%
comprendido dentro del intervalo (X-2S , X+2S)
3. El 99.7% del total de valores estarán 99.7%
comprendido dentro del intervalo (X-3S , X+3S
X+S X+2S X+3S
X-3S X-2S X-S
RANGO INTER CUARTÍLICO (RIQ)
Se utiliza cuando no se puede calcular la varianza es decir que no se puede
RIQ= Q3 –Q1 calcular el promedio porque los datos son heterogéneos
Es un rango pero en el 50% de los valores centrales que es bueno
RANGO SEMI INTER CUARTÍLICO (RSIQ)
RIQ= (Q3 –Q1)/2 Rango SEMI inter cuartílico (rSiq)
COEFICIENTE DE VARIACIÓN (CV )
Mide el grado de homogeneidad de los valores de una variable o de un grupo de datos . Se utiliza Para comparar
dos o más grupos de datos y analiza que grupo es el más homogéneo .
Se calcula de la forma siguiente: CV=(S/Promedio)*100 se expresa en términos porcentuales
Cuando menor es el CV el grupo es más homogéneo.
Medidas o Estadígrafo o Estadístico de Asimetría o de Deformación