Objetivos de la Estadística Descriptiva:
Resumen de grandes volúmenes de datos: El objetivo principal de la estadística
descriptiva es transformar grandes conjuntos de datos en información comprensible.
Esto es particularmente útil cuando se trabaja con datos masivos (Big Data), pues
permite obtener una visión rápida de las características esenciales de los datos
sin necesidad de analizarlos exhaustivamente.
Identificación de patrones y tendencias: A través de gráficos y medidas
estadísticas, la estadística descriptiva ayuda a identificar patrones o tendencias
dentro de los datos, como agrupaciones o valores inusuales (outliers), lo cual es
vital para la interpretación de los resultados.
Base para análisis posteriores: Antes de realizar inferencias más complejas, como
la estadística inferencial, los analistas suelen utilizar la estadística
descriptiva para obtener una "fotografía" precisa de los datos y asegurarse de que
no existan errores en los datos, como valores atípicos o registros duplicados.
Medidas de Tendencia Central: Profundización
Las medidas de tendencia central, además de resumir un conjunto de datos, permiten
hacer comparaciones entre diferentes grupos o conjuntos de datos.
Media (Promedio):
La media es útil cuando los datos son aproximadamente simétricos y no contienen
valores extremos (outliers). Sin embargo, puede ser sensible a los valores
atípicos. Si un conjunto de datos contiene valores muy altos o bajos, la media
puede no reflejar el "valor típico" de la distribución.
Ejemplo práctico: Si los salarios de una empresa tienen valores como $1,000, $2,000
y $20,000, la media sería $7,667, que no representa de manera precisa la mayoría de
los salarios (siendo mucho más bajo que el salario mayoritario).
Mediana:
La mediana es más robusta frente a los valores atípicos. Es una medida más adecuada
cuando se quiere conocer el valor central, ya que solo depende de la posición de
los datos, no de sus valores exactos.
Ejemplo práctico: Si tenemos una lista de edades: 25, 30, 35, 40, 100. La mediana
es 35, mientras que la media sería 58, lo que no refleja la tendencia general
debido al valor atípico de 100.
Moda:
Se utiliza para datos cualitativos o cuantitativos. Un conjunto de datos puede
tener más de una moda o ninguna.
Ejemplo práctico: Si en una encuesta de preferencias de color, los resultados son 5
respuestas para "rojo", 7 respuestas para "azul" y 3 respuestas para "verde",
entonces la moda es "azul".
Medidas de Dispersión: Profundización
Las medidas de dispersión nos permiten comprender cuán extendidos o concentrados
están los datos en torno a la media.
Rango:
El rango da una idea general de la dispersión de los datos, pero no es muy
informativo cuando hay valores atípicos. Además, no tiene en cuenta la forma de la
distribución de los datos.
Ejemplo práctico: Si las temperaturas registradas en una semana son 10°C, 14°C,
17°C, 21°C, 30°C, el rango es 30 - 10 = 20°C, lo que indica la diferencia entre la
temperatura más baja y la más alta, pero no nos da información sobre cómo se
distribuyen los datos entre esos dos valores.
Varianza:
La varianza es una medida que refleja la dispersión de los datos respecto a la
media, pero debido a que se calcula como el promedio de los cuadrados de las
diferencias, tiene unidades cuadradas. Esta característica puede dificultar la
interpretación directa.
Ejemplo práctico: Si las edades de un grupo son 10, 20, 30, 40, 50, la varianza
mide cuánto se alejan esos valores de la media (30), lo que da una idea más precisa
de la dispersión comparado con el rango.
Desviación estándar:
La desviación estándar es más fácil de interpretar que la varianza, ya que tiene
las mismas unidades que los datos originales. Es una medida comúnmente utilizada en
casi todos los análisis estadísticos.
Ejemplo práctico: Si tenemos los mismos datos de edades (10, 20, 30, 40, 50), la
desviación estándar nos diría cuán dispersas están las edades de la media (30).
Distribución de Frecuencias: Profundización
Una de las primeras etapas en cualquier análisis de datos es examinar cómo se
distribuyen las observaciones en un conjunto de datos.
Tablas de Frecuencia:
Las tablas de frecuencia se utilizan para contar el número de observaciones en cada
categoría o intervalo. Pueden presentarse con frecuencias absolutas o relativas.
Las frecuencias relativas se calculan dividiendo la frecuencia absoluta de cada
categoría entre el total de observaciones.
Ejemplo práctico: En una encuesta de 100 personas sobre su nivel de satisfacción
con un producto, las respuestas pueden clasificarse en "Muy Satisfecho",
"Satisfecho", "Neutral", "Insatisfecho", y "Muy Insatisfecho". La tabla de
frecuencias mostrará cuántas personas eligieron cada categoría.
Histogramas:
Los histogramas son útiles para representar visualmente la distribución de una
variable continua y para identificar rápidamente si los datos siguen una
distribución normal o si tienen sesgo.
Ejemplo práctico: Un histograma de las edades de los estudiantes en una universidad
podría mostrar una distribución sesgada hacia los valores más jóvenes, si la
mayoría de los estudiantes son de 18 a 22 años.
Diagrama de Caja (Boxplot):
Este gráfico muestra los cuartiles de la distribución y permite identificar
rápidamente los valores atípicos. Es especialmente útil para comparar varias
distribuciones entre sí.
Ejemplo práctico: Un boxplot de los salarios en diferentes departamentos de una
empresa podría mostrar que el departamento de marketing tiene una distribución más
concentrada de salarios, mientras que el departamento de ventas tiene una
distribución con valores atípicos altos.
Otras Técnicas Gráficas en Estadística Descriptiva
Gráfico de Barras: Útil para variables cualitativas (categóricas). Cada barra
representa la frecuencia de una categoría. Es adecuado para comparar la frecuencia
de diferentes categorías de datos.
Gráfico de Líneas: Utilizado para datos que siguen un patrón a lo largo del tiempo,
como las ventas mensuales de una empresa o el comportamiento de la temperatura a lo
largo de un año.
Consideraciones Adicionales sobre Estadística Descriptiva:
Análisis de Valores Atípicos (Outliers):
Los valores atípicos son observaciones que se alejan significativamente de la
mayoría de los datos. Pueden indicar errores en la recolección de datos, pero
también pueden ser fenómenos interesantes que merecen atención.
El uso de boxplots y la prueba de valores extremos (por ejemplo, usando el rango
intercuartílico) son herramientas comunes para identificar estos valores.
Transformación de Datos:
En algunos casos, los datos pueden necesitar ser transformados antes de aplicar un
análisis descriptivo. Por ejemplo, una transformación logarítmica puede hacer que
los datos sesgados de manera positiva sean más simétricos y fáciles de analizar.
Uso de la Estadística Descriptiva en la Ciencia de Datos:
En la ciencia de datos, la estadística descriptiva es la primera etapa antes de
aplicar modelos predictivos o técnicas de análisis más avanzadas. Los científicos
de datos usan estadísticas descriptivas para entender las características generales
de los datos y preparar los datos para el modelado.
Conclusión:
La estadística descriptiva es una herramienta esencial para la exploración y
comprensión de datos. Sin embargo, su utilidad se extiende más allá de la simple
descripción, ya que proporciona la base sobre la cual se pueden aplicar técnicas
estadísticas más complejas. La combinación de medidas de tendencia central,
dispersión y visualizaciones gráficas permite una comprensión integral de los
datos, lo que facilita la toma de decisiones informadas en áreas como la
investigación científica, los negocios, las finanzas y muchas otras disciplinas.