Resumen de los datos
Para destacar las características de los datos será necesario
condensarlos, o sea, resumirlos, hecho que puede lograrse por medio de
diferentes medidas descriptivas, que dependerán de si los datos son
cuantitativos o cualitativos.
Medidas descriptivas para datos cuantitativos
Existen diferentes medidas resumen para variables cuantitativas como
pueden ser las de localización o posición y las de dispersión.
Medidas de tendencia central: media o promedio aritmético, mediana,
moda. Propiedades.
Son medidas de localización o posición central, es decir, definen el
medio o el centro del conjunto de datos, que es un valor típico o representa-
tivo del mismo.
Exponentes de este tipo de medidas son la media aritmética, la mediana,
la moda, la media geométrica, la media armónica, la media cronológica y la
media ponderada. Se estudiarán las tres primeras.
Media arítmetica
Se conoce comúnmente como promedio o promedio aritmético. En este
caso el centro del conjunto de datos se define como la suma de todos los
valores dividido entre el total de datos.
M
e
todoslos datos
dNúmerototalde datos
n
i
a x j
j 1
X
n
donde xi representa a los diferentes valores del conjunto.
En el ejemplo de las embarazadas
44
xj
j1 167 174 165 7341
X 1668
44 44 44
La estatura media de esas embarazadas es de 166.8 cm.
Propiedades de la media aritmética
1. Siempre existe.
2. Es única; existe una y solo una media aritmética.
3. Si a cada elemento de un conjunto de datos se le suma una constante, la
media aritmética de nuevo conjunto será igual a la media aritmética del
primer conjunto más la constante.
X2 X1 C X1 C
Ejemplificando, si se tienen los datos 12; 8; 11; 7 para el primer
conju
X1 9.5 .
nto,
enton
ces
Segundo conjunto, sumándole 3: 15; 11; 14; 10
X 2 X1 3 12.5
Tercer conjunto, sumándole – 5: 7; 3; 6; 2
X3 X1 3 4.5
4. En un conjunto de datos, la sumatoria de todos los valores menos la
media aritmética es igual a 0 y se expresa como:
n Xj n
x j X 0, donde si x j X, entonces X j 0
j j1
n nn
X
j1 x x
X,
j
j
n j
j
1
1
j
pero n
X
j
1
por lo que
n
x j n X y como
j1 X es una constante,
entonces
n
X n X, sustituyendo arriba, se tiene que j1
nXnX0
Es decir, que si a cada elemento del conjunto le restamos la media
aritmética y después los sumamos el resultado es 0.
Por ejemplo, (12-9.5) + (8-9.5) + (11-9.5) + (7-9.5) = 0
5. Si se tienen conjuntos dados C1, C2 ,........., Cn , cada uno con m datos y
conrespectivamente, la media aritmética
medi
as
X
X
X
general o media aritmética de todos los datos es igual a la media aritmética de
las medias aritméticas de cada conjunto
Esto es C1 con datos x11, x21, ...xm1
C2 con datos x12, x22, ...xm2
׃
Cn con datos x1n, x2n, ...x mn
Suponga que en el ejemplo de las estaturas de las embarazadas, estas
estuvieran agrupadas en 4 conjuntos de 11 cada uno, donde las primeras 11
pertenecen al conjunto C1 y así sucesivamente.
C1: 167, 174, 148, 168, 153, 155, 149; 185, 177, 162, 173
C2: 161, 169, 154, 163, 164, 178, 164; 168, 159, 194, 177
C3: 184, 181, 156, 159, 184, 176, 167; 164, 168, 159, 161
C4: 165, 159, 167, 171, 166, 174, 162, 169, 163, 159, 165
En
to
X2 168.27,
nc X3 169.00, X4 165.45
es
se
tie
ne
qu
e:
X
164.64 168.27 169.00 165.45 667.36
X 166.8
4 4
6. Si cada elemento de un conjunto de datos se multiplica por una
constante, la media aritmética del nuevo conjunto será igual a la media
aritmética del primer conjunto multiplicada por la constante.
X2 kX1 k X1
k x j k xj
X
k k X1
n
Aplicando lo planteado anteriormente al conjunto de datos: 12 ; 8 ;
11 ; 7, se tiene que:
X1 9.5
Al multiplicar por 2 los datos iniciales se obtienen los valores
si 19
guX2
ie
nt
es:
24
;
16
;
22
;
14
.
En
to
nc
es:
7. Es afectada por valores extremos. Esto se le señala como una
desventaja.
Si en el conjunto de datos en vez de 11 hubiera un 49, la media aritmética
aumentaría a 19, valor bastante diferente a 12; 8 y 7 cuya media aritmética
sería 9 y también bastante diferente a 49.
Mediana. Propiedades.
Se define como el valor que divide a un conjunto de datos ordenados a
la mitad.
Para calcular la mediana de un conjunto de datos primeramente será
necesario ordenar de menor a mayor o viceversa y después encontrar la
posición central.
Si el número de datos es impar la mediana corresponde al valor que
ocupa la posición (n+1)/2; si el número de datos es par, existirán dos valores
centrales por lo que la mediana se define como el promedio de ambas (o
semisuma), estos valores centrales ocupan las posiciones n/2 y (n/2) + 1.
En los datos de estatura del estudio sobre mujeres embarazadas para
encontrar la mediana primeramente se ordenarán los valores:
148 149 153 154 155 156 159 159 159 159
159 161 161 162 162 163 163 164 164 164
165 165 166 167 167 167 168 168 168 169
169 171 173 174 174 176 177 177 178 181
184 184 185 194
n es par ya que es igual a 44; luego, los valores centrales serán los
que ocupan las posiciones
n/2 = 44/2 = 22 y (n/2) + 1 = 22 + 1 = 23
que corresponden a los valores 165 y 166 por lo que la mediana será igual a:
Mediana = 165 + 166 = 165.5
2
El 50 % de las mujeres embarazadas miden menos de 165.5 cm y el 50
% de ellas tienen una estatura superior a ese valor.
Si en vez de 44 hubieran 43 valores (suponga que el valor 194 no
exn 1 431 que corresponde a
ist 22
e)
el
va
lor
ce
ntr
al
oc
up
a
la
po
sic
ió
n:
2 2
165.
se interpretaría entonces que 50 % de las mujeres embarazadas que se estudian
tienen una estatura inferior a 165 cm y el otro 50 % una estatura superior a
este valor.
Como puede verse en los ejemplos cuando n es impar la mediana es un
valor que pertenece al conjunto de datos y cuando es par puede pertenecer o
no.
Las principales propiedades de la mediana son:
1. Siempre existe
2. Es única
3. No se afecta por valores extremos. Por ejemplo, considere que entre las
mujeres embarazadas en vez de un caso con 194 cm haya uno de 211
cm, entonces la mediana seguiría siendo 165.5 cm
Moda. Características
Es el valor que más se repite dentro de un conjunto de datos, es decir, el
de mayor frecuencia. En el ejemplo visto 159 cm es la moda ya que es el valor
que más se repite, 5 veces.
Entre las principales características de la moda se encuentran
1. No siempre existe, ya que si ninguno de los valores del conjunto de
datos se repite no hay moda
2. No siempre es única. Por ejemplo, en la serie de datos siguientes: 8,
15, 21, 22, 22, 25, 29, 29, 33
los números 22 y 29 se repiten 2 veces por lo que ambos serían la moda,
en este caso se dice que es bimodal; si hay tres modas, trimodal y en
general, plurimodal.
3. En ocasiones puede usarse para datos cualitativos. Por ejemplo, en un
consultorio determinado en el mes de febrero la enfermedad de moda
pudo haber sido la respiratoria aguda ya que fue la más frecuente.
De estas tres medidas la media aritmética es la más ampliamente utilizada.
Cuando los datos están organizados en forma de distribuciones de
frecuencia también se les puede calcular la media, la mediana y la moda; se
dice entonces que se calculan estas medidas para datos agrupados.
Media aritmética para datos agrupados
Sin recurrir a los datos originales se calcula esta media aritmética
considerando que el punto medio o marca de clase es el elemento que
mejor representa o sustituye al valor original dentro de cada clase. La
fórmula es la siguiente:
k k
f Mj j
f
j Mj
j1 j1
X k n
f j j1
Donde:
fi:: frecuencia absoluta de la clase i.
Mi: marca de clase o punto medio de la clase i. k:
total de clases.
n: total de observaciones.
En el ejemplo de estaturas de las embarazadas, utilizando los límites
reales:
3150.5 8 156.5 3186.5 1192.5
X 3 8 11 10 6 2 3 1
451.5 1252 1787.5 1685 1047 361 559.5 192.5
44
7336
166.7, valor diferente pero cercano al promedio de los
44
datos simples que era de 166.8 cm
Mediana para datos agrupados
En este caso, primeramente debe encontrarse la clase mediana, es
decir, la clase donde se encuentra la mediana y luego calcular la misma.
La fórmula será: n 2
f
Mediana LME
ME
a
f ME
Donde:
LME: límite real inferior de la clase mediana. n:
número total de las observaciones.
(Σf)ME: suma de las frecuencias absolutas hasta la clase anterior a la clase
mediana.
fME : frecuencia absoluta de la clase mediana. a:
amplitud de la clase mediana.
En el ejemplo de estaturas de las embarazadas, primero hay que
encontrar la clase mediana, como hay 44 observaciones, esta clase será aquella
donde se alcance 22 observaciones (para ello puede usarse la frecuencia
acumulada), esta será (160, 165). Entonces, como:
LME = 159.5 (Σf)ME = 11 a=6
n = 44 fME = 11
44
159.5
Mediana
2 11
6
1
1
159.5 6
165.5 cm
Este valor divide el conjunto de datos en dos partes tales que el 50 % de
estas mujeres embarazadas miden menos de 165.5 cm y el resto por encima,
en este caso el valor coincidió con el calculado para datos simples.
Moda para datos agrupados
Para calcular la moda también es necesario encontrar previamente la clase
modal, o sea, aquella que contiene la moda, la fórmula en este caso
Será:
f
a
f
Mo
A
Mo
Mo p A 2f f f
Dónde:
LMO: límite real inferior de la clase modal.
fMO: frecuencia absoluta de la clase modal.
fA: frecuencia absoluta de la clase anterior a la clase modal. fP:
frecuencia absoluta de la clase posterior a la clase modal. a:
amplitud de la clase modal.
En el ejemplo que se está desarrollando, la clase modal es (160, 165).
LMO = 159.5 fA = 8 a=6
fMO = 11 fp= 10
Luego se tiene, Moda 159.5 .5
1
2 11 10
8 1
6
1
8 5
9
3
6 22
Moda 159.5 18 4 164 cm 18
Como se observa, este valor esta algo alejado al encontrado para los
datos simples (159 cm).
Cuando la distribución de los datos es simétrica, la media aritmética, la
mediana y la moda coinciden; si la distribución es asimétrica, donde la
mayoría de los datos se encuentran hacia la izquierda (asimétrica a la
derecha), la moda es menor que la mediana, la que a su vez es menor que la
media aritmética; si la distribución es asimétrica, donde la mayoría de los
datos se encuentra hacia la derecha (asimétrica hacia la izquierda), la moda es
mayor que la mediana y esta es mayor que la media aritmética.
Entre otras medidas de tendencia central se encuentra la media
arimética ponderada, que es una media aritmética que toma en cuenta que cada
elemento de la serie tiene un peso diferente dentro del conjunto de datos, en la
fórmula cada elemento estará afectado por ese peso, ponderación o factor.
n
ωj x j
j 1
X
n
Dónde:
ωi: peso de la observación i.
xi:observación i.
n: total de observaciones.
Esta fórmula es similar a la media aritmética para datos agrupados, si se
consideran las x como las marcas de clase y las frecuencias absolutas de las
clases, las ponderaciones. También puede usarse dicha fórmula cuando
existen muchos datos repetidos y las ωi representarían las frecuencias con que
se repite cada valor xi.
Medidas de dispersión: rango o recorrido, varianza y la desviación
estándar.
Las medidas de tendencia central no bastan para caracterizar un grupo
de datos; por ejemplo, si se tiene la siguiente serie de datos correspondientes
al nivel de glucosa en sangre de un grupo de pacientes: 3.8; 7.6; 4.9; 6.3; 3.4,
la media aritmética es 5.2 pero con la serie:
5.2; 5.0; 5.3; 5.4; 5.1
también la media es 5.2 y son dos conjuntos de datos totalmente diferentes.
Estos últimos datos son muy parecidos entre sí, por ejemplo entre el valor
máximo y el mínimo solo hay una diferencia de 0.4 unidades, mientras que en
el primer conjunto los datos son bastante diferentes entre sí y alejados del
valor medio, si se compara con el segundo conjunto.
Esto indica que para describir las características de los datos
cuantitativos se hace necesario considerar otras medidas como son las de
variación o dispersión, que miden cuánto se alejan o dispersan los datos
respecto de un valor dado o entre sí. Las más comunes son: rango, varianza,
desviación estándar, desviación media, desviación cuartilar, coeficiente de
variación y otros. Mientras más se parezcan los valores, o sea, mientras más
cercanos sean ellos entre sí menor, será el valor de la medida de dispersión.
Rango o recorrido
Como vimos cuando se construyeron las distribuciones de frecuencia,
estas se definió como la diferencia entre el valor mayor y el menor.
Rango = Vmáximo – Vmínimo
En la primera serie de datos el rango es de 0.4 unidades (5.4 –5.0) y en
la segunda 4.2 unidades (7.6 – 3.4).
Aunque es una medida fácil de calcular y casi obligada para tener
una primera idea de la variación de la información puede resultar engañosa.
El primer conjunto de datos visto de una manera ordenada sería:
3.4; 3.8 ; 4.9; 6.3; 7.6
y el rango 4.2 unidades, pero si el conjunto fuera 3.4 ; 3.7; 3.4 ;3.5 ;7.6 el
rango seguiría siendo el mismo, sin embargo, los cuatro primeros datos son
bastante parecidos y 7.6 es un valor atípico.
Medidas de dispersión relativa: coeficiente de variación, variables
estandarizadas y puntuaciones estándar.
Cuando se desea comparar la variación existente entre dos conjuntos de
datos puede suceder que ambos grupos no estén medidos en la misma unidad
o que uno de los mismos exhiba valores mucho más elevados que el otro, por
lo que el resultado de la medida de dispersión debe ser mayor en este primer
conjunto, sin que por ello sus valores sean menos parecidos entre sí que los del
segundo conjunto; se impone entonces buscar una medida que permita ver la
dispersión de una forma relativa y no absoluta.
De manera general la definición será:
absolut
de r Medid
dis e a de
disper
per l sion
sio a
n t
i
v
a
de c
ten
den
cia
Coeficiente de variación
De las medidas de dispersión relativa la más común resulta ser el
coeficiente de variación, en este caso se toma como medida de dispersión
absoluta a la desviación estándar y como medida de tendencia central a la
S1
100 .
media aritmética, así la definición es: CV1 1
X
lo que representa un porcentaje y permitirá comparar cualquier conjunto de
datos.
Por ejemplo, se cuenta con los resultados de una investigación sobre el
nivel de colesterol en sangre en los habitantes de un municipio de un país,
los cuales arrojan una media aritmética de 5.3 unidades y una desviación
estándar de 2.05 unidades, en otros resultados de un municipio contiguo un
estudio similar arrojó un valor de 4.8 unidades para la media aritmética y de
1.9 unidades para la desviación estándar.
Los coeficientes de variación serán:
Grupo 1 Grupo 2
CV1 S1 X1 100 X2
100
= [2.05/5.3]·100 = [1.9/4.8]·100
= 38.7 % = 39.6 %
En el segundo conjunto se obeserva una variación algo mayor que en el
primero.
Para valores de la media aritmética cercanos a 0 el coeficiente de
variación deja de ser útil.
Variables estandarizadas y puntuaciones estándar
Otra forma de medir la dispersión sin depender de las unidades de
medida es lo que se conoce como la estandarización de la variable.
El valor de una variable estandarizada se obtiene a partir de la fórmula
siguiente:
xx
z s
donde esta fórmula o expresión se aplica a cada dato individualmente, la cual
mide la desviación de la media en unidades de la desviación estándar, esta
variable no depende de las dimensiones usadas al presentar el numerador y el
denominador la misma unidad de medida.
Cuando las desviaciones de la media vienen expresadas en unidades de
la desviación estándar se plantea que estas se encuentran en unidades o
puntuaciones estándar y se emplean para comparar distribuciones.
Medidas de posición relativa: cuartiles, deciles y percentiles.
Los cuantiles son medidas de posición relativa los cuales dividen al
conjunto ordenado de datos en varias partes iguales.
Los cuartiles, deciles y percentiles son cuantiles que dividen el conjunto
ordenado de datos en cuatro (Qi), diez (Di) y cien (Pi) partes iguales
respectivamente.
El cuartil 3 (Q3) será el valor que divide al conjunto ordenado de datos
de manera tal que 75 % de los valores del mismo está por debajo del cuartil y
25 % restante por encima; el decil 6 (D6) será el valor que divide al conjunto
ordenado de datos de forma tal que 60 % de los mismos es menor que él y 40
% restante es mayor; el percentil 97 es el valor que
divide al conjunto ordenado de datos de manera tal que 97 % de los datos se
encuentra por debajo de él y el otro 3 % se encuentra por encima.
Como puede verse el cuartil 2, el decil 5 y el percentil 50 coinciden con
la mediana.
como coeficiente de correlación lineal, simbolizado por r y el que será:
- Positivo, si al aumentar los valores de x también aumentan los de y
y viceversa.
- Negativo, si al aumentar los valores de x disminuyen los de y y
viceversa.
Trabajando con la fórmula correspondiente a r2 se puede llegar a:
2
x
n
i
X Y i
2 i 1
r
n
i1 x i
x y
2
y
2
n
i
i
Este cociente puede ser interpretado como el cociente de la covarianza
al cuadrado de las variables x e y entre el producto de las varianzas de x y de
y. La covarianza es una medida de la variación conjunta de las variables x e y;
en el caso particular de que x e y son la misma variable, la covarianza se
convierte en varianza.
Por ejemplo, se quiere conocer si la estatura de los padres está
relacionada con la de los hijos (un problema clásico) para lo que en cierta
población se estudian los casos de 16 padres y sus primogénitos
varones. Los valores en centímetros son:
Padre (X) Hijo (Y) Padre (X) Hijo (Y)
1.70 1.68 1.95 1.84
1.84 1.90 1.87 1.89
1.63 1.70 1.69 1.64
1.74 1.74 1.83 1.79
1.87 1.93 1.94 1.98
1.85 1.80 1.71 1.75
1.79 1.83 1.77 1.78
1.97 2.04 1.81 1.83
Se tendrá que:
0.1432 2
2
r 0.1480 0.78 0.7758
6
También r2 =77.58 %, es decir casi el 78 % de la variación de la variable
y estaría explicada por las variaciones de la variable x.
Ya que r = 0.88, valor positivo, cuando aumentan los valores de la variable x,
aumentan los de la variable y y viceversa y cuando disminuyen los valores de
la variable x, disminuyen los de la variable y y viceversa.
Correlación por rangos
Existen ocasiones en que no resulta conveniente usar los verdaderos
valores de las variables o estas están medidas en una escala que no permite
usar el coeficiente de correlación lineal; por ello se define el coeficiente de
correlación por rangos de Spearman, para estos casos, si hay interés de
encontrar una medida de la relación entre dos variables.
Aquí los valores de cada variable son sustituidos por el rango o lugar
que ocupan dentro de la serie de datos, por ejemplo, si se cuenta con los
valores 9; 3; 5; 7; 12; 5, estos serán sustituidos por 5; 1; 2.5; 4; 6; 2.5,
(Como el 5 se repite y ocupa los lugares 2 y 3, estos valores se promedian)
Gráfico
El gráfico constituye otra forma de presentar una información ya
resumida, tanto él como la tabla permitirán dar de forma rápida y clara, de un
golpe de vista, una idea del comportamiento de los datos.
El gráfico resulta menos preciso que la tabla (fundamentalmente cuando
se trata de variables cuantitativas), pero más fácil de entender. Se utiliza sobre
todo para destacar la tendencia que sigue un fenómeno o una variable, o para
resaltar una particularidad de los datos o alguna relación entre variables.
Como se planteó anteriormente el gráfico consta de 3 partes:
1. El título. Los requerimientos coinciden con los de la tabla.
2. El gráfico. Dependerá del tipo de variable con que se esté
trabajando.Existe una gran diversidad de gráficos, los más comunes son,
para las variables cualitativas y cuantitativas discretas los diferentes
gráficos de barras y el de sector o pastel y para las variables
cuantitativas continuas, el histograma y el polígono de frecuencia.
3. Las notas explicativas. Es válido lo que se planteó para las tablas.
Aquí se incluirá, en los casos que precise la leyenda, la cual aparece con
mayor frecuencia debajo o a la derecha del gráfico.
Tipos de gráficos
Existen diversos tipos de gráficos, se estudiarán los más usados.
Gráficos de barras
Se utilizan para variables cualitativas y cuantitativas discreta y se
representan a través de un sistema de coordenadas.
El más sencillo es el gráfico de barras simples, en este caso se estudia
una sola variable, cuyas categorías se colocan en el eje de las abscisas y las
frecuencias de cualquier tipo, en el eje de las ordenadas.
Este tipo de gráfico se usa también para representar series cronológicas
de pocos datos.
Los valores de las frecuencias se disponen mediante barras o
rectángulos separados, que deben deben ser de igual amplitud y la distancia
entre ellos no mayor que el ancho de la barra ni menor que la mitad del
mismo.
Gráfico de barras múltiples
La situación problémica más frecuente donde se usa este tipo de gráfico
es aquella donde interviene el uso de dos variables, pudiendo ser estas
cualitativas, cuantitativas discretas o combinaciones de estas.
En este caso en un sistema de ejes coordenados, sobre el horizontal se
colocan las categorías representativas de una de las variables, y sobre cada una
de estas categorías se levantan tantas barras como categorías tenga la otra.
Este gráfico se puede interpretar de varias formas, una de ellas, es comparar los
casos de hepatitis viral o de varicela por provincia, también la relación o
comportamiento de ambas enfermedades en cada provincia y entre estas.
Gráfico de barras proporcionales.
También se conoce como gráfico de barras compuestas. Al igual que el
anterior se utiliza para representar más de una variable, aunque puede ser
usado cuando hay una sola.
En este caso, en vez de usar varias barras por cada categoría de una de
las variables, se construye una sola barra y respecto de esta se representan las
categorías de la otra variable que interviene en el estudio de un fenómeno
dado, en forma proporcional a la frecuencia observada en al tabla estadística,
generalmente en forma porcentual.
Gráfico de sector o pastel
Este es un gráfico que se usa para la representación de una variable
cualitativa o cuantitativa discreta, brinda la misma información que el de
barras simples. Ambos se utilizan con fines comparativos.
Esta presentación emplean un círculo dividido en sectores, en el que el
tamaño de cada sector se corresponde con el aporte de cada categoría de la
variable.
El empleo de este tipo de gráfico se sustenta sobre el cálculo de la
magnitud del ángulo correspondiente al sector que representan cada categoría.
Para ello debe recordarse que todo circulo abarca un ángulo de 360o y que el
total de las frecuencias absolutas de cualquier resumen de datos constituye el
100 %, bastará, entonces, multiplicar el porcentaje.
Gráfico aritmético simple
Para representar a una variable cualitativa o cuantitativa discreta
pudiera utilizarse un gráfico de puntos, mantener la forma verbal que
consistiría en colocar en el eje de las abscisas las diferentes
características de la variable mientras el de las ordenadas estaría
destinado para las frecuencias y la representación correspondería
simplemente a un punto. Sería por tanto absurdo unir estos puntos
buscando una tendencia, ya que los valores intermedios en el eje de las
abscisas no existen y unir los puntos daría la idea de una continuidad
irreal. Pero cuando esta variable se refiere al tiempo, es decir, se quiere
representar una serie cronológica, esta continuidad sí existe, y aunque la
serie puede ser representada por un gráfico de barras, más comúnmente
se hace por un gráfico de puntos que se unen entre sí por segmentos y se
le llama gráfico aritmético simple, dado que en el eje de las ordenadas
(frecuencias) se toma la escala aritmética. Si para la representación fuera
necesario usar la escala logarítmica, se llamaría gráfico
semilogarítmico.