CAPÍTULO 12
ANÁLISIS DESCRIPTIVO NUMÉRICO
VARIABLES CUANTITATIVAS
INTRODUCCIÓN
El análisis descriptivo numérico permite resumir, organizar y comprender de manera
clara la información recopilada. Las variables cuantitativas como edad, peso, talla,
niveles de colesterol o glucosa requieren el uso de pruebas que permitan describir su
comportamiento en la población de estudio.
Es importante recalcar que este tipo de análisis no busca hacer generalizaciones ni
establecer relaciones causales, sino ofrecer una primera aproximación a los datos,
permitiendo observar cómo se distribuyen y qué tan homogéneos o heterogéneos son.
Las principales medidas del análisis descriptivo numérico son las medidas de tendencia
central (media, mediana y moda), medidas posición (cuartiles, deciles, percentiles),
medidas de dispersión (rango, varianza y desviación estándar), y medidas de forma
(asimetría y curtosis). Cada una de éstas proporciona información complementaria
sobre el comportamiento de los datos.
Comprender e interpretar adecuadamente los datos obtenidos a partir del análisis
descriptivo numérico permite al investigador obtener una idea clara del comportamiento
de los datos, facilitando la identificación de características relevantes dentro del conjunto
analizado. Esta etapa del análisis estadístico sienta una base sólida para futuras
decisiones metodológicas, como la elección de pruebas estadísticas apropiadas o el
cálculo de la muestra.
DESARROLLO.
Cabe señalar que, una vez realizadas las encuestas, ya sea mediante formularios físicos
o digitales, es fundamental identificar las variables cuantitativas, es decir, aquellas en
las que se obtiene un dato numérico puro o directo y no una categoría predefinida.
Un ejemplo claro de ello es la pregunta: ¿Cuál es su edad en años cumplidos?, donde
las respuestas de los encuestados serán datos como 17, 18, 19 o 20 años.
Es importante recalcar que las variables cuantitativas deben ser formuladas como
tales dentro de los cuestionarios. No se recomienda preguntar por la edad utilizando
rangos categóricos como: de 10 a 15, de 15 a 19, de 19 a 25, etc., ya que esto impide
un análisis más detallado y limita la posibilidad de categorizarlas posteriormente según
los objetivos del estudio.
Antes de ingresar al análisis descriptivo de una variable cuantitativa, es importante
señalar que, cuando se obtiene el dato puro, se puede realizar posteriormente un
proceso de categorización, de acuerdo con la operacionalización de las variables
planteada en el estudio. Una vez realizada esta categorización, la variable puede ser
tratada como una variable cualitativa ordinal. Esto permite aplicar distintos
procedimientos, como tablas de frecuencias absolutas y relativas, tablas cruzadas,
gráficos de sectores, gráficos de barras simples, dobles o apiladas. Además, se pueden
calcular medidas como razones, proporciones y otros indicadores útiles en la
descripción y comparación de los datos descritos en el capítulo de variables cualitativas.
Una vez realizada esta aclaración, es importante señalar que las principales medidas
utilizadas para analizar descriptivamente una variable cuantitativa se agrupan en
diferentes tipos. Primero, están las medidas de tendencia central, como la media, la
mediana y la moda. Luego, se encuentran las medidas de posición, entre las cuales
se incluyen los cuartiles, deciles y percentiles. También se utilizan las medidas de
dispersión, como el rango, la varianza, la desviación estándar y el rango intercuartílico.
Finalmente, dentro del análisis descriptivo, se consideran las medidas de forma, como
la asimetría y la curtosis.
Medidas de tendencia central.
En el presente capítulo usaremos algunos ejemplos para la mejor compresión de las
diferentes medidas, para las medidas de tendencia central, partiremos de un conjunto
de 10 individuos y sus edades:
● Media o promedio. Se obtiene sumando todos los datos de cada uno de los
individuos y dividiendo para el total de las personas.
Paso 1: Sumar los valores
Paso 2: Contar cuántos valores hay
Paso 3: Aplicar la fórmula
● Mediana. Es la medida que se ubica en el 50% de los datos, es decir, en el
punto medio de los individuos estudiados. Para su cálculo, es indispensable
que los datos se encuentren ordenados. Cuando el número total de datos es
impar, existe un valor único que representa exactamente ese punto medio. Sin
embargo, cuando el número de datos es par, como en el ejemplo utilizado que
contiene 10 observaciones, la mediana se obtiene a partir del promedio de los
dos valores centrales del conjunto ordenado.
Paso 1: Verificar que los datos estén ordenados
Paso 2: Como hay 10 datos (n par), se toma el promedio del 5.° y 6.° dato
● 5.° dato: 17
● 6.° dato: 1
● Moda. Es el valor que más se repite dentro de los individuos estudiados
Como resumen del presente ejemplo tenemos que la media es de 17,7, la mediana de
17,5 y la moda de 17.
Una vez que hemos identificado cómo se calcula la media, la mediana y la moda, es
importante señalar que, entre las tres medidas, la media es la más sensible a la
presencia de valores extremos. A continuación, procedemos a demostrar el porqué.
En el ejemplo que venimos desarrollando, vamos a suponer que ocurrió un error durante
la recolección de datos, ya sea por una falla en las mallas de validación de los
formularios digitales o en el registro de los formularios físicos. En lugar de registrar
correctamente la última edad como 19 años, se ingresó erróneamente 91 años. Al
realizar nuevamente el cálculo de los estadísticos, se puede observar que la mediana y
la moda se mantienen, mientras que la media se ve notablemente alterada.
Este ejemplo, a pesar de contar con apenas 10 datos y haber modificado únicamente
un valor, evidencia cómo la media se incrementa de 17,7 a 25,9. Este comportamiento
explica por qué, ante la presencia de valores extremos, se debe tener precaución al
utilizar la media o promedio como medida representativa. Este principio abre la
discusión sobre la normalidad en el comportamiento de los datos, tema que será
abordado con mayor profundidad en el capítulo correspondiente a la distribución de los
datos.
Medidas de posición.
Cuando hablamos de medidas de posición, nos referimos a aquellos valores que se
ubican en determinados porcentajes dentro del conjunto de datos, es decir, dentro
de los individuos estudiados.
Para comprender mejor este concepto podemos tomar el concepto de la mediana que
habíamos manifestado, (valor que se ubica en el 50% de los datos o de los individuos).
Es decir, la Mediana se convierte en el Percentil 50, el Decil 5 o el Cuartil 2, como
detallaremos a continuación.
● Cuartiles. Si consideramos al total de los individuos como un 100%, cuando
hablamos de cuartiles significa dividirles a ese 100% en 4 cantidades iguales.
Es decir, el cuartil 1 ubicará el primer 25% de individuos, el cuartil 2 el 50%, el
cuartil 3 el 75%, y el cuartil 4 finalmente el 100%.
Paso 1: Verificar que los datos estén ordenados
Paso 2: Calcular Q2 (mediana):
Paso 3: Calcular Q1 (primer cuartil):
Q1 es la mediana de la mitad inferior de los datos (los 5 primeros):
valor central (3º dato) = 17
Paso 4: Calcular Q3 (tercer cuartil):
Q3 es la mediana de la mitad superior de los datos (los últimos 5):
→ valor central (3º dato) = 19
Paso 5: Visualizar el Q4
:
● Deciles. Siguiendo el mismo principio que los cuartiles, los deciles dividen al
100% de los individuos en diez partes iguales, es decir, cada decil representa
un 10% del total. Por lo tanto, el decil 1 (D1) corresponde al valor que se ubica
en el 10% de los datos, el decil 3 (D3) al 30%, el decil 7 (D7) al 70%, el decil 9
(D9) al 90%, y así sucesivamente con cada uno de los deciles.
● Percentiles. De igual manera, los percentiles dividen a la totalidad de los
individuos en 100 partes iguales, lo que significa que cada percentil representa
el 1% del total. Por lo tanto, el percentil 15 (P15) corresponde al valor que se
ubica en el 15% de los datos, el percentil 25 (P25) al 25%, el percentil 70 (P70)
al 70%, el percentil 93 (P93) al 93%, y así sucesivamente con cada uno de los
percentiles.
Finalmente, como se manifestó anteriormente, la Mediana es equivalente al Percentil
50, el Decil 5 o el Cuartil 2, ya que todos estos indican el valor que divide a los datos
en dos partes iguales. De igual manera, el Cuartil 1 corresponde al Percentil 25
Medidas de dispersión.
Para comprender las medidas de dispersión, ahora tomaremos como ejemplo las notas
sobre 100 puntos de 300 estudiantes de la carrera de Medicina, teniendo como nota
mínima 0 y como nota máxima 100, con un promedio de 52 puntos.
● Desviación Estandar. Teniendo en cuenta el ejemplo antes descrito,
supongamos que tenemos un estudiante A con una nota de 70 y un estudiante
B con una nota de 21. Para comprender el concepto de desviación estándar,
es fundamental partir del concepto de desviaciones individuales.
Estas desviaciones individuales hacen referencia a cuánto se aleja cada valor
con respecto a la media del grupo. Es decir, si calculamos la media de las notas
y luego restamos a cada nota ese valor promedio, obtendremos la desviación
individual.
Para el ejemplo que estamos desarrollando las desviaciones de cada individuo
serían:
Como se puede ver las desviaciones pueden ser positivas o negativas
dependiendo de si el valor está por encima o por debajo de la media.
Si consideramos que este ejercicio podría aplicarse a los 300 individuos del
estudio, se entiendo el por qué se requiere calcular la desviación estándar. Esta
medida permite resumir el comportamiento de todos los datos, indicando en
qué medida se dispersan o se concentran alrededor de la media. En lugar de
analizar cada una de las 300 desviaciones individuales, la desviación estándar
brinda un resumen numérico del grado de variabilidad que existe dentro del
conjunto de datos.
Teniendo en cuenta la fórmula de las desviaciones individuales, se puede
comprender de mejor manera la construcción de la fórmula de la desviación
estándar. Como las desviaciones individuales pueden ser negativas o positivas,
al momento de sumarlas podría ocurrir que se anulen entre sí. Por esta razón,
en la fórmula de la desviación estándar se elevan al cuadrado, con el fin de
eliminar los signos negativos y considerar únicamente la magnitud de la
desviación. Posteriormente, esta sumatoria se divide para el total de los datos.
En el caso específico de trabajar con muestras, se divide para n - 1, como
corrección del sesgo muestral. Finalmente, se extrae la raíz cuadrada del
resultado, con lo cual se retorna a la unidad original de la variable analizada.
Desviación Estandar para una muestra.
Desviación Estandar cuando se trabaja con toda la población (universo).
Si consideramos el ejemplo de los 300 individuos estudiados, en donde la media
de las notas es 52 y la desviación estándar calculada es ± 10 puntos, y
tomando en cuenta el concepto de normalidad que se abordará en capítulos
posteriores, podemos señalar que el 68.2% de la población se encuentra dentro
del rango de una desviación estándar respecto a la media, es decir, entre 42 y
62 puntos. Por esta razón, como se observa en el gráfico, ni la persona A (con
nota de 70) ni la persona B (con nota de 21) se encuentran dentro de ese
68.2% de los individuos.
Ahora vamos a suponer que, en el mismo ejercicio, el cálculo de la desviación
estándar gracias al comportamiento de los datos resulta ser de ±20. Como se
puede observar en el siguiente gráfico, la persona A ya se ubica dentro del
68.2% de la población. Esto evidencia de manera clara que la Desviación
Estándar es una medida de dispersión que describe qué tan alejados o
concentrados están los datos con respecto a la media. En este caso, al tener
una desviación estándar de 20, la distribución es mucho más amplia o dispersa,
que con una desviación estándar de 15.
En la aplicación de las ciencias de la salud, el principio de la desviación
estándar se evidencia de forma clara en las curvas de crecimiento y
desarrollo, frecuentemente utilizadas en el seguimiento de niños y niñas sanas.
Como se observa en la siguiente curva, cuando un individuo se encuentra por
fuera del rango de ±2 desviaciones estándar (95,4% de la población con
relación a la media), se considera que podría presentar posibles alteraciones o
retrasos en el crecimiento y desarrollo, especialmente en lo que respecta a la
talla.
Es importante tener en cuenta que los gráficos de crecimiento y desarrollo pueden
estar bajo el concepto de Cuartiles, Deciles y Percentiles antes descritos y que se
observan en el siguiente gráfico.
Cabe indicar que ninguno de los gráficos antes descritos de crecimiento y
desarrollo es reales y pueden ser usados en la práctica en salud, ya que han sido
creados para la comprensión de los temas.
● Varianza. Una vez comprendido el concepto de la desviación estándar, resulta
más sencillo entender qué es la varianza. La varianza, en realidad, es el paso
previo en el cálculo de la desviación estándar. Es decir, consiste en realizar
la sumatoria de las desviaciones individuales elevadas al cuadrado y dividir ese
resultado para el total de datos (n, o n-1 si se trata de una muestra). El valor que
se obtiene corresponde a la varianza.
La principal diferencia entre ambas medidas radica en las unidades. La varianza
mantiene las unidades al cuadrado, mientras que la desviación estándar, al
aplicarle la raíz cuadrada, devuelve el resultado en las unidades originales de la
variable. Esta es una de las razones por las cuales, en la mayoría de los
estudios, se prefiere presentar la desviación estándar como medida de
dispersión, ya que es más fácil de interpretar.
● Rango. El rango no es más que la diferencia que existe entre el valor mínimo
y el valor máximo registrados entre los individuos. Esta medida proporciona
una idea general de la dispersión de los datos. Por ejemplo, no es lo mismo tener
un rango de notas entre 0 y 100 que entre 25 y 100, ya que en el primer caso la
dispersión es mayor y refleja una variabilidad más amplia entre los individuos
evaluados.
● Rango Intercualtílico ( RIQ). Corresponde a la resta entre los valores del
Cuartil 3 y el Cuartil 1, y representa el comportamiento del 50% de los valores
centrales de la distribución. Es importante tener en cuenta que esta medida se
relaciona directamente con la Mediana, ya que se enfoca en la parte central de
los datos, dejando de lado los valores extremos que podrían distorsionar otras
medidas de dispersión.
Medidas de forma.
Para abordar las medidas de forma utilizaremos el ejemplo de las notas con diferentes
distribuciones de los datos para comprender cada uno de los conceptos.
● Curtosis. La curtosis hace referencia a la forma que adopta la curva al graficar
el comportamiento de los datos. Si la curva se presenta aplanada, recibe el
nombre de platicúrtica. Cuando la curva muestra un apuntalamiento marcado
hacia arriba, se denomina leptocúrtica. En cambio, si la curva mantiene una
forma intermedia y centrada, se identifica como mesocúrtica, como se puede
ver en el siguiente gráfico.
Como observamos en el gráfico, a mayor desviación estándar, más tiende a
aplanarse la curva. Como podemos ver, cuando la desviación estándar es de
±20, es decir, existe mayor dispersión, la curva es platicúrtica. A diferencia que
cuando la desviación estándar es ±5, la curva es leptocúrtica.
Cabe señalar que algunos de los programas de procesamiento de bases de
datos calculan el coeficiente de curtosis, el cual permite interpretar la forma de
la curva. Cuando este coeficiente es mayor a cero, es decir, positivo, indica una
curva leptocúrtica, con un mayor apuntalamiento, especialmente si el valor es
alto. En cambio, cuando el coeficiente es menor a cero, es decir, negativo, la
curva es platicúrtica, más aplanada, y esta característica se acentúa mientras
más se aleja del 0.
● Simetría. Según las medidas de tendencia central, es decir, la media, la mediana
y la moda, las curvas pueden presentar un comportamiento simétrico cuando
los tres estadísticos coinciden en el mismo valor. Es importante recordar que la
media es el estadístico más sensible a los valores extremos, y tiende a
desplazarse hacia ellos. Por esta razón, cuando la moda permanece en el lado
izquierdo y la media se desvía hacia la derecha, la curva adopta un
comportamiento de asimetría positiva, lo que se traduce gráficamente en una
cola más pronunciada hacia el lado derecho.
Por el contrario, si la moda se mantiene en el lado derecho y la media se
desplaza hacia valores extremos en el lado izquierdo, estamos frente a una curva
con asimetría negativa, caracterizada por una cola alargada hacia la izquierda.
Algunos de los programas de procesamiento de bases de datos calculan el
coeficiente de asimetría, el cual permite interpretar la simetría o sesgo de una
distribución de datos. Cuando este coeficiente es igual o cercano a cero, indica
una distribución simétrica, en la que los valores están distribuidos de manera
equilibrada a ambos lados de la media.
Cuando el valor del coeficiente mayor a cero, es decir, es positivo, la distribución
se considera asimétrica positiva, lo que significa que presenta una cola
alargada hacia la derecha. En cambio, cuando el coeficiente es menor a cero,
es decir, es negativo, la distribución se interpreta como asimétrica negativa,
con una cola extendida hacia la izquierda.
Además, mientras más se aproxima el coeficiente a +1 o a –1, más marcada
será la asimetría y más alargada la cola. Es decir, valores cercanos a +1 indican
una asimetría positiva más acentuada, y valores cercanos a –1, una asimetría
negativa más pronunciada.
Cabe indicar que los conceptos de curtosis y asimetría se relacionan en el concepto de
normalidad que veremos en el capítulo de distribución de los datos.
CONCLUSIONES Y RECOMENDACIONES.
El análisis descriptivo numérico comprende una serie de análisis que permiten
establecer la hoja de ruta para el posterior uso de distintas pruebas estadísticas.
Por lo tanto únicamente ofrecen un vistazo del comportamiento de las variables
cuantitativas sin establecer relación causal o de asociación.
Es importante tener en cuenta que, al calcular medidas de tendencia central, la media
es muy sensible a los valores extremos y que la mediana puede ser un indicador
más confiable en distribuciones asimétricas. Las medidas de posición permiten tener
una idea de la localización de los individuos en distintos puntos de la distribución,
mientras que las medidas de forma permiten la interpretación de la distribución de los
datos.
Como recomendación se plantea diseñar los cuestionarios de recolección de datos con
la posibilidad de recopilar datos cuantitativos puros, pues esto permite un análisis
más completo y flexible, con la posibilidad de categorizar variables posteriormente.
Además se recalca la importancia de analizar las medidas de forma antes de elegir
pruebas paramétricas o no paramétricas para el análisis estadístico posterior.
BIBILIOGRAFÍA.
· Celis de la Rosa AJ, Labrada Martagón V. Bioestadística. 3ª ed. Ciudad
de publicación desconocida: Editorial El Manual Moderno; 2014.
· Martínez González MA, Sánchez-Villegas A, Toledo Atucha E.
Bioestadística amigable. 4ª ed. Madrid: Elsevier; 2020.
· Gómez Barrantes M. Elementos de la estadística descriptiva. 4ª ed. Costa
Rica: Universidad Estatal a Distancia de Costa Rica; 2012.
· Fayad Cámel V. Estadística médica y de salud pública. 2ª ed. Mérida (VE):
Universidad de los Andes; 1970.
· Ministerio de Sanidad y Consumo de España. Manual de Bioestadística
para Ciencias de la Salud. Madrid: Ministerio de Sanidad; 2008.
· Hernández Sampieri R, Fernández Collado C, Baptista Lucio P.
Metodología de la investigación. 6.ª ed. México: McGraw-Hill Education;
2014.