Estadistica Descriptiva
Estadistica Descriptiva
DESCRIPTIVA
LUIS FERNANDO VILLANUEVA GARCIA
MPH, EE
Médico – Cirujano
CMP 25521
ESTADISTICA
DESCRIPTIVA
CONCEPTOS
BASICOS
DEFINICION DE
ESTADISTICA
La Estadística es parte del método científico y
se le define como un conjunto de técnicas
usadas para recopilar, organizar, presentar e
interpretar datos, con el fin de obtener
conclusiones y tomar decisiones sobre
determinados hechos o fenómenos en
estudios
CLASIFICACION DE LA
ESTADISTICA
La estadística se clasifica de acuerdo a las dos
funciones que realiza:
ESTADISTICA DESCRIPTIVA: Es aquella parte de la estadística
que describe y analiza una población, sin pretender sacar
conclusiones de tipo general. Es decir, las conclusiones
obtenidas son validas sólo para dicha población.
ESTADISTICA INFERENCIAL: Es aquella parte de la estadística,
cuyo propósito es inferir o inducir leyes de comportamiento de
una población, a partir del estudio de una muestra. Es decir las
conclusiones obtenidas a partir de una muestra, son validas para
toda la población.
POBLACION o UNIVERSO
Es un conjunto grande y completo de
individuos, elementos o unidades que
presentan características comunes y
observables
OBSERVACIONES
Estadísticamente son los datos que se
recolectan para un estudio
Ejemplo: Si una enfermera lleva a cabo una
investigación sobre los menores desnutridos
atendidos en el Instituto Nacional de Salud
del Niño; para cada niño la enfermera
obtendrá la edad, peso y talla. En este caso,
los niños constituyen las unidades de
observación; y la edad, peso y talla de cada
niño vienen a ser las observaciones
VARIABLES
Se definen las variables, como magnitudes que
tienden a sufrir modificaciones o cambio dentro de un
dominio determinado.
Es decir, las características que varían de individuo a
individuo o de objeto a objeto se llaman variables;
mientras que las que permanecen inalterables, se
llaman constantes.
Generalmente, las variables se designan con las
últimas letras mayúsculas del abecedario: X, Y, Z; y
los valores de las variables se designan con letras
minúsculas: x, y z.
Ejemplo: La Universidad Daniel A. Carrión lleva a
cabo un estudio para determinar la situación
ocupacional de sus egresadas en la carrera de
Enfermería.
En relación a este estudio, identifique las propiedades
siguientes como constantes o variables:
Sexo.
Ingresos anuales.
Profesión.
superior
VARIABLES CUANTITATIVAS: Son aquellas cuyos valores del dominio
de variación son contados o medidos. Se clasifican en:
CUANTITATIVAS DISCRETAS: Cuando los valores del dominio de
variación son contados; y por lo tanto sólo pueden asumir valores
enteros.
Ejemplo:
VARIABLE DOMINIO DE VARIACION
Número de alumnos 50, 80, 100 alumnos
CUANTITATIVAS INTERVALO
DISCRETAS
CONTINUAS RAZON o PROPROCION
ESCALA DE MEDICION
ETAPA DE RECOLECCION
DE DATOS
RECOLECCION DE DATOS
A través de la recolección, se obtienen los datos que requieren
para alcanzar los objetivos y demostrar las hipótesis de la
investigación. La obtención de los datos se hace teniendo en
cuenta lo siguiente:
ETAPA DE ELABORACION
DE DATOS
ELABORACION DE DATOS
En la etapa de recolección se obtiene gran cantidad de datos, los
mismos que se encuentran en formularios, cuestionarios, etc.; y
totalmente desordenados. En esta etapa se trata de organizar
dichos datos y para ello es necesario cumplir dos actividades:
Revisión o crítica y clasificación de datos.
REVISION O CRITICA DE DATOS: La revisión tiene por objeto:
a) Determinar si se han recibido todos los formularios o,
cuando menos, en una proporción que sea suficiente para no
invalidar las conclusiones que se podrían hacer.
b) Verificar que estén registradas todas las respuestas
requeridas.
c) Localizar posibles incongruencias en la información
proporcionada
La Revisión de datos constituye lo que se ha dado en
llamar Control de Calidad de la Información
Analfabeto
Primaria
Secundaria
Superior
TOTAL
CLASIFICACION DE LOS DATOS MEDIDOS A NIVEL DE
INTERVALO O DE RAZON: La elaboración de datos cuyas
variables pertenecen a la escala de intervalo o de razón, tienen
otro tipo de tratamiento, ya que su organización y posterior
análisis, es necesario agruparlos en clases o intervalos. Esta
forma de organización se conoce con el nombre de
DISTRIBUCION DE FRECUENCIAS.
K = 1 + 3.3 Log N
CLASES (i)
1
2
3
4
5
PASO 3: DETERMINACION DE LA AMPLITUD DEL INTERVALO
(W): Llamado también ancho de clase, la amplitud es la
cantidad de datos que están comprendidos en un intervalo de
clases.
Un intervalo se forma por dos límites que van a definir una
clase.
Límites son los valores extremos de un intervalo y son de dos
tipos: límite superior y límite inferior. Cuando un intervalo no
tiene límite superior o inferior, se llama intervalo de clase
abierto.
Luego podemos definir también la amplitud del intervalo (w)
como la distancia entre el límite inferior y superior de un
intervalo, y se halla a través de la fórmula:
RANGO
AMPLITUD DE
W=R / K
INTERVALO NUMERO DE CLASES
Para el ejemplo tenemos:
W = 19 / 5 = 3.8 = 4
NOTA: El valor de W se redondea al entero sólo si los datos
son enteros o discretos. Si los datos proporcionados están en
decimales, W se redondea de acuerdo al número de decimales
de la información.
INTERVALO
Luego 16 constituye el límite inferior y 19 el límite superior de la
primera clase. Igual procedimiento se sigue con la segunda y hasta la
quinta; de tal forma que se obtiene lo siguiente:
i Ii fi
1 16 - 19 5
2 20 - 23 9
3 24 - 27 4
4 28 - 31 1
5 32 - 35 1
20 SUMATORIA
PASO 6: FRECUENCIA ABSOLUTA ACUMULADAS (Fi): Se
obtiene sumando y acumulando los valores absolutos clase
por clase en orden ascendente.
Para nuestro ejemplo tenemos:
F1 = 5
F2 = 5 + 9 = 14
F3 = 5 + 9 + 4 = 18
F4 = 5 + 9 + 4 + 1 = 19
F5 = 5 + 9 + 4 + 1+ 1 = 20
PASO 7: FRECUENCIAS RELATIVAS SIMPLES (hi): Es el valor
que resulta al dividir cada una de las frecuencias absolutas
simples entre el total de frecuencias o datos. Así tenemos:
hi = fi / N h1 = 5 / 20 = 0.25
h2 = 4 / 20 = 0.20
PASO 8: FRECUENCIA REALTIVAS ACUMULADAS (Hi): Se
obtiene sumando y acumulando los valores relativos clase por
clase en orden ascendente.
Así tenemos:
H1 = 0.25
H2 = 0.25 + 0.45 = 0.70
H3 = 0.25 + 0.45 + 0.20 = 0.90
H4 = 0.25 + 0.45 + 0.20 + 0.05 = 0.95
H5 = 0.25 + 0.45 + 0.20 + 0.05 + 0.05 = 1.00
NOTA: Por lo general, a las frecuencias relativas las
multiplicamos por 100, con el fin de obtener los valores
expresados en porcentajes
PASO 9: PUNTO MEDIO O MARCA DE CLASE (Xi): Se define
como la semi suma de los límites inferior y superior de cada
intervalo de clase:
EJERCICIOS RESUELTOS
1. Un investigador social desea determinar en la comunidad
“Pan y agua” el número de horas semanales que dedican los
niños menores de 6 años de edad, a ver televisión, Una
muestra de 25 niños, arrojó los siguientes resultados (en
número de horas semanales)
10 19 25 19 26
16 19 27 27 25
23 22 17 12 20
15 21 23 26 14
18 25 23 24 21
Se solicita
a. Ordenar la información en una tabla de distribución de
frecuencias.
b. Interpretar algunos valores de las frecuencias halladas
a. Para ordenar la información, utilizaremos la regla de Sturges.
Calculo del rango: R = 27 - 10 = 17
2 13 - 15 2 4 0.08 0.16 8 16
3 16 – 18 3 7 0.12 0.28 12 28
4 19 – 21 6 13 0.24 0.52 24 52
5 22 – 24 5 18 0.20 0.72 20 72
25 1.00 100
Interpretación:
f6 = 7 de los 25 niños, ven televisión entre 25 y 27 horas / semanales, o
sea, el 28% de los niños está la mayor cantidad de tiempo viendo
televisión.
f1 = 2 niños, que equivalen al 8%, ven televisión entre 10 y 12 horas /
semanales
H4 = 52% = El 52% de los niños de esa comunidad Pan y Agua
ven televisión entre 10 y 21 horas / semanales.
2. Los siguientes datos son los pesos medidos en Kg. De 30
pacientes, atendidos en los meses de enero a marzo del 2,005,
en el consultorio de nutrición del Hospital Nacional “Fuji - Fuji”
75.8 69.3 96.2 86.3 99.8
84.6 72.2 74.1 76.0 86.5
70.2 61.8 58.4 69.2 68.4
68.3 75.0 67.3 82.2 72.1
59.4 65.5 76.4 76.5 81.0
65.0 86.2 68.3 65.9 69.0
Se solicita:
a. Organizar los datos en una tabla completa de distribución de
frecuencias.
b. Interpretar el valor de algunas frecuencias.
a. Como la variable peso, por su medición pertenece a la escala de razón,
utilizaremos la regla de sturges para elaborar una tabla de distribución de
frecuencias, detallando los pasos siguientes:
Cálculo del Rango: R = 99.8 - 58.4 = 41.4
Número de clases: K = 1 + 3.3 Log 30 = 5.88 = 6
Amplitud de intervalo: W = 41.4 / 6 = 6.9 (Redondeando a un decimal, porque
los datos aparecen con un decimal)
Formación de intervalos:
i Ii
1 58.4 – 65.2
2 65.3 – 72.1
3 72.2 – 79.0
4 79.1 – 85.9
5 86.0 – 92.8
El dato mayor 99.8 no se
6 92.9 – 99.7 contabiliza dentro de este
intervalo y se perdería un dato
Soluciones posibles:
a. Dejar el limite superior de la ultima clase, abierto, de la siguiente manera:
i Ii
1 58.4 – 65.2
2 65.3 – 72.1
3 72.2 – 79.0
4 79.1 – 85.9
5 86.0 – 92.8
6 92.9 – y más
b. Aumentar una clase y formar un nuevo intervalo, de la siguiente forma:
i Ii
1 58.4 – 65.2
2 65.3 – 72.1
3 72.2 – 79.0
4 79.1 – 85.9
5 86.0 – 92.8
6 92.9 – 99.7
7 99.8 – 106.6
b. Aumentar un décimo (0.1) la amplitud del intervalo, con lo cual W = 6.9 + 0.1 = 7.0. Luego los
nuevos intervalos serían:
i Ii
1 58.4 – 65.3
2 65.4 – 72.3
3 72.4 – 79.3
4 79.4 – 86.3
5 86.4 – 93.3
6 93.4 – 100.3
En este caso adoptaremos la última alternativa, por ser la más conveniente,
la tabla completa de distribución de frecuencias, sería la siguiente:
i Ii fi Fi hi Hi hi (%) Hi (%)
30 1.000 100.0
b. F3: 21 = 21 pacientes tienen entre 58.4 y 79.3 Kg.
h2: 40% = El 40 % de los pacientes, pesan entre 65.4 y 72.3 Kg.
H4: 90% = El 90% de los pacientes, tienen como peso máximo 86.3
Kg.
3. Se presentan los siguientes datos correspondientes a la
cantidad de creatinina en mg / 100 cc., en muestra de orina de
un grupo de 40 personas normales atendidos en el Hospital
Nacional “La Justicia de Salinas”
1.51 1.63 1.51 1.56 1.69 1.65 2.18 1.68
1.09 1.46 2.29 1.48 2.29 1.60 1.38 1.56
1.22 1.50 1.58 1.37 1.65 1.67 1.23 1.73
1.65 1.47 1.89 1.61 1.81 1.61 2.01 1.33
1.53 1.60 1.47 1.67 1.66 1.69 1.54 1.83
Se solicita:
a. Agrupar la información proporcionada, en una cuadro de
frecuencias.
b. Interpretar algunos valores de las frecuencias obtenidas.
Solución:
La variable en estudio pertenece a la escala de razón y por lo
tanto utilizaremos la regla de Sturges, para agrupar los datos en
un cuadro de distribución de frecuencias:
Calculo del Rango: R = 2.29 - 1.09 = 1.2
Número de clases: K = 1 + 3.3 Log 40 = 6.28 = 6
(redondeando al entero)
Amplitud de intervalo: W = 1.2 / 6 = 0.20 (redondeando a dos
decimales, ya que los datos proporcionados tienen dos
decimales)
Formación de intervalos y frecuencias:
La tabla de frecuencias sería la siguiente:
i Ii fi Fi hi Hi hi (%) Hi (%)
40 1.000 100.0
b. f3: 20 = 20 personas tienen entre 1.49 y 1.68 mg / 100 cc de
creatinina.
F4: 35 = 35 personas tienen de 1.09 a 1.88 mg / 100 cc inclusive de
creatinina.
H1: 75% = El 75% de las personas tienen como máximo 1.68 mg /
100 cc de creatinina.
4. Los siguientes datos que se presentan en una tabla incompleta
de distribución de frecuencias, corresponden a las calificaciones
de un grupo de estudiantes del Diplomado en Epidemiología, en
el módulo de Estadística:
i Ii Hi (%) fi hi (%)
1 - 20 12
2 5- 60
3 9- 70
4 - 85
5 -
Solución:
a. Sabemos que la última frecuencia relativa acumulada es
igual al 100% (H5 = 100)
b. Para completar las frecuencias relativas simples, decimos:
h1: H1: 20
h2: H2 – H1: 60 - 20 = 40
h3: H3 – H2: 70 - 60 = 10
h4: H4 – H3: 85 - 70 = 15
h5: H5 – H4: 100 – 85 = 15
c. Las frecuencias absolutas simples, se obtienen utilizando la
fórmula:
hi = fi / N fi = hi . N
1 1–4 12 20 20
2 5–8 24 40 60
3 9 – 12 6 10 70
4 13 – 16 9 15 85
5 17 - 20 9 15 100
60 100
ESTADISTICA
DESCRIPTIVA
ETAPA DE PRESENTACION
DE DATOS
FORMAS DE
PRESENTACION DE DATOS
La presentación de datos se hace
principalmente a través de dos formas:
a través de tablas o cuadros
estadísticos y a través de gráficos.
TABLAS o CUADROS
ESTADÍSTICOS
J 11 36.7
O 6 20.0
C 7 23.3
U 6 20.0
TOTAL 30 100.0
PARTES DE UNA TABLA
ESTADISTICA
2. Encabezado: Está formado por la primera fila
superior y nos indica las características (variables)
del fenómeno en estudio.
3. Matriz: Está formado por la primera columna de la
izquierda y nos indica las características (variables)
del fenómeno en estudio.
4. Cuerpo: Es el contenido de la tabla, es decir, es la
información que se presenta en filas y columnas.
5. Fuente: Se coloca en la parte inferior del cuadro y
nos indica el lugar de donde se obtuvieron los
datos contenidos en la tabla.
PARTES DE UNA TABLA ESTADISTICA
TITULO ENCABEZADO
FUENTE
TIPOS DE TABLAS
ESTADISTICAS
1. De acuerdo al uso:
a. Tabla General o de Referencia: Son
tablas referenciales que se utilizan
generalmente como fuente de
información, ya que contiene datos en
detalle sobre diversas variables de un
fenómeno.
CUADRO Nº 2.1
Universidad Nacional Daniel Alcides Carrión
Alumnos matriculados por departamento de procedencia, según datos personales. Provincia
Yanacancha, Cerro de Pasco. 2,005
16 – 19 20 - 23 24 - 27 28 a más
Arequipa
Junín
Cuzco
TIPOS DE TABLAS
ESTADISTICAS
Primaria 63 52.5
Secundaria 16 13.3
Superior 3 2.5
FUENTE: Archivo de la Oficina de Estadística del Hospital Daniel Alcides Carrión. Lima. Marzo 2,004.
TIPOS DE TABLAS
ESTADISTICAS
Analfabeto 28 10 38
Primaria 32 31 63
Secundaria 9 7 16
Superior 1 2 3
TOTAL 70 50 120
FUENTE: Archivo de la Oficina de Estadística del Hospital Daniel Alcides Carrión. Lima. Marzo 2,004.
TIPOS DE TABLAS
ESTADISTICAS
CUERPO
ESCALAS
(EJE DE LAS ABCISAS)
FUENTE
TIPOS DE GRAFICOS
ESTADISTICOS
1. Cuando los datos son medidos a nivel nominal u
ordinal:
a. Gráfico de barras: Es usado generalmente para
representar hechos o fenómenos son
continuidad, sin movimiento, de tal forma que
permite visualizar la magnitud y comparar los
elementos en que se clasifican las variables. Los
gráficos de barras, pueden ser de los siguientes
tipos:
TIPOS DE GRAFICOS ESTADISTICOS
a.1. Gráfico de barras simple: Para su elaboración se debe
contar con una tabla o cuadro de entrada simple. En su
construcción se debe observar lo siguiente:
Todas las barras tienen el mismo ancho.
El espacio entre barra y barra debe ser la misma y
constituye la mitad del ancho de la barra.
El ancho de la barra debe ser el doble del espacio que se deja
entre barra y barra.
En el eje de las ordenadas, la longitud entre escala y escala
debe ser la misma que la longitud entre escala y escala del
eje de las abcisas.
El número de escalas en cada eje deben ser proporcionales
Preferentemente construir las barras en orden decreciente
de magnitud, en orden alfabético, cronológico, etc.
75
60
45
2E
30 E
15
C1
Tabla N° 1.2
Pacientes atendidos de Tuberculosis Pulmonar por grado de
instrucción. Hospital Loayza. Lima. Marzo 2,004
GRADO DE NUMERO DE
PORCENTAJE
INSTRUCCIÓN PACIENTES
ANALFABETO 38 31.67
PRIMARIA 63 52.50
SECUNDARIA 16 13.33
SUPERIOR 3 2.50
TOTAL 120 100.00
FUENTE: Hospital Loayza. Oficina de estadística.
1. En el eje de las abcisas, se representa la variable y a cada
categoría le corresponde una barra. Si asumimos que el
espacio entre barra es de 0.5 cm. Entonces el ancho de
cada barra es de 1 cm.
2. En el eje de las ordenadas, debemos tener entre 4 a 6
escalas, a fin de que guarden proporción con las escalas
del eje de las abcisas. La longitud entre escala y escala en
el eje de las ordenadas, debe ser la misma que aparece
entre escala y escala del eje de las abcisas (1 cm.). El
valor de cada escala se calcula aproximadamente
dividiendo la frecuencia más alta entre el número de
categorías de la variables (63 / 4 = 15.75), donde el
resultado se redondea al número entero más próximo y
de fácil manejo. En nuestro ejemplo, redondeamos a un
valor de 15.
3. Cada barra alcanzará la altura que indique la frecuencia
que aparece en la tabla correspondiente.
4. Para graficar el porcentaje de pacientes por
grado de instrucción, se sigue el mismo
procedimiento; sólo se debe tener en cuenta que
en el eje de las ordenadas ya no se mide
cantidad, si no porcentaje y para hallar el valor
en porcentaje de cada escala, dividimos el
porcentaje más alto entre el número de
categorías de la variable (52.5 / 4 = 13.13) y el
resultado se redondea al número entero más
próximo y de fácil manejo. En nuestro ejemplo
redondeamos a 10.
5. Las barras alcanzarán la altura que indique el
porcentaje que aparece en la tabla
correspondiente.
a.2. Gráfico de barras compuestas: Para su
elaboración se debe contar con una tabla o
cuadro de entrada doble.
Tabla N° 1.3
Pacientes atendidos de Tuberculosis Pulmonar por grado de
instrucción según sexo. Hospital Loayza. Lima. Marzo 2,004
GRADO DE SEXO
TOTAL
INSTRUCCIÓN MASCULINO FEMENINO
ANALFABETO 13 15 28
PRIMARIA 35 28 63
SECUNDARIA 9 7 16
SUPERIOR 2 1 3
TOTAL 59 51 110
1. Hallamos las escalas del eje de las abcisas siguiendo el
mismo procedimiento que en el caso de las barras simples.
Si asumimos que el espacio entre barra y barra es de 0.5
cm. Entonces el ancho de la barra será de 1 cm.
2. El ancho de cada barra se divide en dos partes iguales,
donde una representa al sexo masculino y la otra al
femenino.
3. El valor de las escalas del eje de las ordenadas, se calcula
aproximadamente ubicando la máxima frecuencia entre
los dos sexos (masculino y femenino) y dividiendo dicha
frecuencia entre el número de categorías de la variable
(35 / 4 = 8.75) el valor hallado redondeamos al entero más
próximo y de fácil manejo (en este ejemplo 10).
4. Las barras alcanzarán la altura que indique las
frecuencias de la tabla respectiva.
40
30
20
10
0
ANALFABETO PRIMARIA SECUNDARIA SUPERIOR
SEXO
GRADO DE TOTAL
MASCULINO
INSTRUCCIÓN FEMENINO (%) (%)
(%)
ANALFABETO 46.43 53.57 100.00
PRIMARIA 55.56 44.44 100.00
SECUNDARIA 56.25 43.75 100.00
SUPERIOR 66.67 33.33 100.00
1. Para hallar las escalas del eje de las abcisas se sigue el
mismo procedimiento que el caso de las barras simples.
Asumimos un valor de 0.5 cm. Para el espacio entre barra
y barra y por lo tanto el ancho de la barra será de 1 cm.
2. Para hallar las escalas del eje de las ordenadas, se ubica la
más alta frecuencia en el total. En nuestro ejemplo: 63 / 4
= 15.75 que se redondea al entero más próximo y de fácil
manejo; y se tendría lo mismo que en el caso del gráfico
de barras simple.
3. En el segundo caso se necesita traducir los valores
absolutos del cuadro en porcentajes. El valor de cada
escala será de 100 / 4 = 25
4. Las barras correspondientes a la variable grado de
instrucción, alcanzarán la altura según lo indique la
frecuencia total. Asimismo, cada barra se cortará su
altura en dos, según lo indique la frecuencia de la variable
sexo.
100.00
75.00
50.00
25.00
0.00
ANALFABETO PRIMARIA SECUNDARIA SUPERIOR
masculino femenino
75
60
45
30
15
0
ANALFABETO PRIMARIA SECUNDARIA SUPERIOR
masculino femenino
b. GRAFICO CIRCULAR: Se usa para
representar y comparar la dimensión de las
partes de un fenómeno con el fenómeno total.
Para su elaboración se utiliza la
circunferencia, siendo necesario que los
valores absolutos y/o porcentuales, sean
traducidos en GRADOS. A cada elemento de
la variable le corresponde un sector de la
circunferencia.
Tabla N° 1.2
Pacientes atendidos de Tuberculosis Pulmonar por grado de
instrucción. Hospital Loayza. Lima. Marzo 2,004
GRADO DE NUMERO DE
PORCENTAJE
INSTRUCCIÓN PACIENTES
ANALFABETO 38 31.67
PRIMARIA 63 52.50
SECUNDARIA 16 13.33
SUPERIOR 3 2.50
TOTAL 120 100.00
FUENTE: Hospital Loayza. Oficina de estadística.
Teniendo en cuenta el cuadro anterior,
graficar los datos utilizando un gráfico
circular.
Solución: Sabemos que la circunferencia tiene
un total de 360°, utilizando la regla de tres
simple, se hallan los grados para cada clase:
100 % - 360°
31.7% - X
9°
CONTINUACION
48°
114°
189°
30
25
20
15
10
0
4.5 - 9.5 9.5 - 14.5 14.5 - 19.5 19.5 - 24.5 24.5 - 29.5 29.5 - 34.5 34.5 - 39.5
Solución:
Para su elaboración hallamos las marcas de
clase o punto medio de cada intervalo,
incrementando una anterior a la primera clase
y otra posterior a la última clase, ambas con
frecuencias cero.
Luego se procede a la unión de los puntos, los
mismos que se unen a través de una línea
recta.
c. Ojivas: Son gráficos que se utilizan para
representar las frecuencias acumuladas
absolutas o relativas, y consiste en un
gráfico lineal que nos permite observar la
cantidad de elementos que quedan por
encima o por debajo de determinados
valores.
120
100
80
60
40
20
10 15 20 25 30 35
ETAPA DE ANALISIS E INTERPRETACION DE
DATOS: MEDIDAS DE RESUMEN
Introducción
Se ha estudiado los cuadros y gráficos como formas para
ordenar y describir un conjunto de datos para tomar
decisiones. Sin embargo, el análisis resulta todavía un
tanto incompleto, pues se hace necesario que todos los
datos contenidos en la tabla de distribución de frecuencias,
se puede resumir aún más para facilitar al análisis e
interpretación de la información, utilizando ciertos
indicadores.
Estos indicadores, llamados también medidas de resumen
o ESTADIGRAFOS, permita hablar un solo valor
numérico, el mismo que representa a toda la población o
muestra en estudio.
Las medidas de resumen o estadígrafos más
importantes son:
De tendencia central: Medida aritmética,
mediana, moda, media geométrica, etc.
De posición: Deciles, cuartiles, percentiles.
Reemplazando:
Mediana (Me):
Es el estadígrafo que representa el punto medio de
los datos, en el cual cae el 50% de las puntuaciones.
Se obtiene de la siguiente manera:
Mediana para datos no agrupados.-
La Mediana es el valor medio (cuando la serie
es impar) o la media aritmética de los dos
valores medios (cuando la serie es par), del
conjunto de datos previamente ordenados en
forma creciente o decreciente.
Reemplazando en la formula:
Me = 2 + (80/2 – 15 / 26) x 2
Me = 2 + 1.9 = 3.9 Kg.
Interpretación: En la muestra en estudio, el
50% de las familias consumen como máximo
3.9 Kg. / semana de carne de vacuno. El
restante 50% de las familias consume más de
3.9 Kg. / semana.
VENTAJAS DE LA MEDIANA
La mediana es un estadígrafo que no está
afectada por valores extremos, y por lo
tanto es más representativa que la media
aritmética cuando alguno de los valores de
la variable se aleja mucho de los demás o
cuando las series son simétricas.
Es útil cuando los datos agrupados tienen
clases abiertas en los extremos.
Se aplica también a variables que
pertenecen a la escala ordinal.
MODA
Es un estadígrafo que nos indica el valor o
cualidad que se presenta con más frecuencia
dentro de una variable. Se halla de acuerdo
a lo siguiente:
a. Moda para datos no agrupados: La moda
es el valor más frecuente o el valor que más
se repite dentro de una serie de datos.
Ejemplo: Calcular la moda del coeficiente
intelectual de un grupo de alumnos: 100, 95,
105, 100, 110, 100
Solución: Observamos que el dato que más
se repite es 100. Luego la moda será 100.
Interpretación: Se interpreta como que la
mayoría de los alumnos tienen un CI
aproximado de 100. En este caso la serie es
Uni modal, porque tiene una sola moda.
Ejemplo: Calcular la moda del coeficiente
intelectual del siguiente grupo de alumnos:
95, 100, 105, 110, 95, 100, 115, 95.
Solución: Se observa que existen dos valores
que se repiten. Luego la moda será 95 y 100.
Y se interpreta como que el CI más
frecuente en el grupo de alumnos es de 95 y
100.
En este caso la serie es Bimodal, porque
tiene dos modas:
Cuando la serie tiene tres o más modas se el
conoce con el nombre de Multimodal.
La moda también es útil cuando la variable
en estudio pertenece a la escala nominal.
Ejemplo: Hallar la moda para la siguiente
información que consiste en una muestra de
consumidores según preferencias por marca
de mantequilla:
MARCA DE MANTEQUILLA CONSUMIDORES
ASTRA 20
DORINA 32
CREMA DE ORO 18
LAIVE 12
NINGUNO 5
TOTAL 87
la clase modal.
i I, F,
1 0 - 1.9 15
4 6 - 7.9 13
5 8 - 9.9 6
2°) Cálculo d’:
d’ = 26 – 15 = 11
Mo = L¡ + d’ . w
d’ + d”
Ventajas de la Moda.-
- Al igual que la mediana, no está afectada por
valores externos.
- Puede usarse cuando los datos agrupados tiene
clases abiertas en los extremos.
- Se usa también para variables que pertenecen a la
escala nominal.
Desventajas de la moda:
No es representativa a menos que la
distribución contenga un gran número de
datos y exista significativa repetición de
alguno de ellos.
Muchas veces la serie no tiene moda porque
ningún valor se repite.
Cuando la serie tiene dos, tres o más modas,
se hace difícil su interpretación y
comparación
Medidas de Posición o Cuantiles.
Concepto.-
Son estadígrafos que dividen a una
distribución de frecuencias en cuatro,
diez o cien partes iguales.
Descripción de los Cuantíles.-
A) Cuartiles.-
Son estadígrafos que dividen a la información
en cuatro (04) partes iguales donde cada uno
de ellos incluye el 25% de las observaciones.
Si se estudia el 25% de las observaciones se dice que está
analizando el cuartil 1 (Q ).
1
25%
Cuartil (Q3)
Tercer
Segundo
25% Cuartil (Q2)
25%
TOTAL 100%
Los Cuartiles se calcula de la siguiente manera:
Donde:
i = 1,2,3; Según se trate de hallar el primero,
segundo, tercero cuartil.
L¡ = Límite inferior de la clase cuartílica.
f¡ = Suma de todos las frecuencias absoluta
simples.
( f ¡)1 = Suma de las frecuencia absoluta simple de
toda las clases anteriores de la clase
cuartílica.
fp= Frecuencia que corresponde a la clase cuartílica.
Ejemplo: Teniendo en cuenta la información
del cuadro sobre el consumo de carne vacuno,
hallar el cuartil 1.
Solución:
Para hallar el Q1, se siguen los siguientes
pasos:
1°) Se halla la frecuencia acumulada F¡). (ver
Tabla)
2) Se ubica la clase cuartílica: Para el cuartil i
= 1, luego se utiliza parte de la fórmula: 1 x 80
/ 4 = 20
La clase cuartílica será aquella en donde la primera
frecuencia acumulada contenga el valor de 20. En
esta caso la primera frecuencia acumulada que
contiene a 20 es 41;observamos que 41 se encuentra
en la 2da. Clase, entonces dicha clase será la clase
cuartílica.
Reemplazando en la fórmula:
Q1 = 2 + (1x80/4 – 15 / 26) 2
Q1 = 2,4 Kg.
Interpretación: El 25% de las familias en
estudio consumen como máximo 2.4 Kg. /
semana de carne vacuno.
El 75% de las familias restantes, consume
más de 2.4 Kg. / semana.
DECILES
Son estadígrafos que dividen la información en
diez (10) partes iguales, donde cada uno de
ellos incluye el 10% de las observaciones.
Si se estudia el 10% de las observaciones, se
dice que se está analizando el decil 1 (D1)
Si se estudia el 20% de las observaciones, se
dice que se está analizando el decil 2 (D2).
D1 se interpreta como el límite máximo del 10%
de las observaciones inferiores; o como el límite
mínimo del 90% de las observaciones superiores.
D2 se interpreta como el límite máximo del 20%
de las observaciones inferiores; o como el límite
mínimo del 80% de las observaciones superiores;
y así sucesivamente hasta el D9 que se interpreta
como el límite máximo del 90% de las
observaciones inferiores, o como el límite mínimo
del 10% de las observaciones superiores.
Los deciles se calculan utilizando la fórmula:
i fi / 10 - F i - 1
Di = Li + -------------------------- x W
fi
Donde:
i = 1, 2, 3, ……. 9 según se trate de hallar el primer,
segundo……. Noveno decil.
Li = limite inferior.
F i – 1 = Suma de todas las frecuencias absolutas
simples de todas las clase decílica.
3° Otros datos:
(8) ( i )= 8 x 80 = 64
10
La clase decílica será aquella en donde la primera
frecuencia la acumulada contenga al valor 64. En
este caso la frecuencia acumulada que contiene a
64 es 74; se observa que 74 se ubica en la 4ta clase,
entonces dicha clase constituye la clase decílica
3° Otros Datos:
i fi / 10 - F i - 1
Di = Li + --------------------- x W
fi
D8 = 6.5
Interpretación: El 80% de las familias en estudio
consuma como máximo 6.5 kg/semana de carne de
vacuno.
El 20% restante de las familias consumen más de 6.5
kg/semana.
C) Percentiles:
Son estadígrafos que dividen a la información en cien
(100) partes iguales, donde cada uno de ellos incluye al
1% de las observaciones.
Cuando se estudia el 1% de las observaciones, se dice
que se está utilizando el percentil 1 (P ).
1
Si se estudia al 2% de las observaciones , se dice
que se está analizando el percentil 2 (P2); y así
sucesivamente se puede estudiar hasta el 99% de
las observaciones, donde se dice que se está
analizando al 99 (P99)
P1 se interpreta como el límite máximo del 1% de
las observaciones inferiores, o como el límite
mínimo del 99% de las observaciones superiores.
.
.
.
P15 se interpreta como el límite máximo del 15% de
las observaciones inferiores; o como el límite
mínimo del 85% de las observaciones superiores; y
así sucesivamente hasta al P99 que se interpreta
como el límite máximo del 99% de las observaciones
inferiores; o como el límite mínimo del 1% de las
observaciones superiores
Esquemáticamente se tiene:
1% Segundo Percentil
Primer Percentil
(P2)
(P1)
1%
1%
1%
Tercero
Percentil (P3)
1%
TOTAL 100%
Es necesario tener en cuneta que se puede utilizar los
percentiles para calcular cualquier cualrtil o decil,
pues, según lo que hemos analizado llegamos a la
siguientes igualdades.
Q1 = P25 D1 = P10
Q2 = D5 = Me = P50 D2 = P20
Q3 = P75
D9 = P90
Los percentiles se obtienen utilizando la
fórmula:
i fi / 100 - F i - 1
Pi = Li + --------------------------- W
fi
Donde:
i=1,2,3,…….99, según se trate de hallar el primer, segundo,
….noventinueveavo percentil.
L¡=Límite inferior del a clase percentilica.
f¡= Suma de frecuencias absoluta simple
F i – 1 = Suma de las frecuencias absolutas simples, de todas las
clases anteriores a la clase percentilica.
Fi =Frecuencia que corresponde a la clase percentilica.
R = 14 – 0 = 14
El Rango es un estadígrafo de cálculo fácil, pero de uso
limitado, ya que no considera a todas las observaciones, sino
solo a los datos ,mínimos y máximos. Por lo tanto, esta
fuertemente influenciado por los datos extremos. Solo debe
usarse cuando se desea saber la información inmediata la
dispersión de datos , sin ninguna precisión estadística.