¿CÓMO LLEVAR A
CABO UN ANÁLISIS
EXPLORATORIO DE
DATOS REALMENTE
ÚTIL Y PROFUNDO?
Una guía paso a paso para transformar
datos crudos en conocimiento valioso,
antes de cualquier modelo, predicción o
decisión.
By Nelson Marquez
ANTES DEL EDA…
¡PREPARA TUS DATOS!
El EDA no es el primer paso. Antes de analizar, es
indispensable asegurarse de que los datos son
confiables.
Pasos clave:
🔹 Limpieza de duplicados: registros repetidos
distorsionan las métricas. Identifícalos y elimínalos
cuidadosamente.
🔹 Tratamiento de valores nulos: analiza si conviene
imputarlos (con media, mediana, o técnicas más
complejas) o descartarlos.
🔹 Normalización de formatos: asegúrate de que fechas,
textos, números, etc. estén en formatos homogéneos.
🔹 Validación de datos: revisa si los valores son lógicos
(por ejemplo, edades negativas o fechas futuras).
🔹 Detección de errores de carga: campos desplazados,
columnas mal tipadas, caracteres especiales inesperados.
🧠 Si esta etapa se hace mal, todo el análisis posterior
pierde valor.
¿QUÉ ES EL ANÁLISIS
EXPLORATORIO DE DATOS
(EDA)?
El EDA no es el primer paso. Antes de analizar, es iEs
una fase de exploración sistemática y visual de los
datos para entender sus principales características y
detectar patrones, anomalías o relaciones.
Objetivos principales:
✅ Entender la estructura y el contenido del dataset
✅ Identificar tendencias, anomalías y patrones
✅ Formular preguntas o hipótesis que se puedan probar
luego
✅ Detectar problemas ocultos que podrían afectar
modelos o decisiones
El EDA no busca responder una pregunta puntual, sino
descubrir qué preguntas valen la pena ser respondidas.
PASO 1 - ENTENDER LA
DISTRIBUCIÓN DE
VARIABLES
Comienza por observar cada variable de forma
individual (análisis univariado).
Para variables numéricas:
🔸 Estadísticas básicas: media, mediana, varianza, rango
🔸 Visualizaciones: histogramas, boxplots, KDE (Kernel
Density Estimate)
Para variables categóricas:
🔸 Frecuencias absolutas y relativas
🔸 Visualizaciones: gráficos de barras, treemaps
Estas herramientas te permiten detectar sesgos,
asimetrías o categorías poco frecuentes.
Preguntas guía:
¿Qué tan dispersos están los datos?
¿Existen categorías dominantes o vacías?
¿La distribución es normal o sesgada?
PASO 2 – DETECCIÓN DE
OUTLIERS Y VALORES
EXTREMOS
Los valores atípicos pueden alterar la media, afectar
gráficos y confundir modelos.
Métodos de detección:
🔹 Boxplot + IQR: identifica valores fuera del rango
intercuartílico
🔹 Z-score: valores que se alejan más de 3 desviaciones
estándar de la media
🔹 Visualización: scatterplots o histogramas permiten
“ver” los outliers
Decisión crítica:
🔸 ¿Eliminar, imputar o conservar? Depende del contexto:
→ Un outlier en temperatura puede ser un error.
→ Pero un cliente que compra mucho puede ser valioso.
❗Siempre documenta qué criterio usaste para tratarlos.
PASO 3 – EXPLORAR
RELACIONES ENTRE
VARIABLES
Este análisis bivariado o multivariado ayuda a
descubrir asociaciones o correlaciones.
Relaciones numéricas:
🔸 Correlación de Pearson (lineal) o Spearman (monótona)
🔸 Visualización con scatterplots o mapas de calor
Numéricas vs categóricas:
🔸 Boxplot segmentado por categoría
🔸 Gráficos de violín o swarmplot
Categóricas entre sí:
🔸 Tablas de contingencia (crosstabs)
🔸 Gráficos de mosaico o stacked bars
❓ Pregunta clave: ¿hay alguna relación relevante que
explique el comportamiento de una variable en función de
otra?
PASO 4 – GENERACIÓN DE
HIPÓTESIS
En esta fase, el EDA te permite formular ideas sobre lo
que podría estar pasando en los datos. Estas hipótesis
no se confirman todavía, pero orientan análisis futuros.
Ejemplos de hipótesis:
🔸 “Los clientes de 25 a 35 años tienden a comprar más
productos premium.”
🔸 “Las ventas disminuyen en días de lluvia.”
🔸 “Las devoluciones son más frecuentes en ciertas
marcas.”
Tip: Anota tus hipótesis junto con la evidencia preliminar
que las sostiene.
📌 Estas hipótesis te preparan para realizar análisis
estadísticos más profundos o aplicar modelos predictivos.
HERRAMIENTAS
RECOMENDADAS
No importa si usás código o herramientas visuales, lo
importante es tener un flujo de análisis sistemático.
Lenguajes de programación:
🔹 Python: pandas, numpy, seaborn, matplotlib, plotly
🔹 R: tidyverse, ggplot2, dplyr
Herramientas no-code / low-code:
🔹 Power BI: excelente para dashboards exploratorios
🔹 Tableau: potente visualmente, ideal para relaciones
🔹 Excel: útil para datasets pequeños o rápidos
Consejo: automatiza lo repetitivo, guarda tus notebooks o
dashboards como plantillas.
Antes de dar por terminado el EDA, pregúntate:
✔️¿Entendí la estructura de los datos?
✔️¿Detecté y traté los valores problemáticos?
✔️¿Visualicé bien la información?
✔️¿Formulé hipótesis?
✔️¿Documenté mis pasos para replicarlos?
🎯 El EDA es exploración con propósito. Es donde los
datos empiezan a contarte su historia.
SI TE GUSTÓ,
REACCIONA, COMENTA Y
COMPARTE, ASÍ
LLEVAREMOS ESTA
INFORMACIÓN A MÁS
PERSONAS
Gracias por leer 💙