9
La metodología empleada para ciencia de datos, consta de 10 etapas que forman un
proceso iterativo para el uso de los datos se describe en J. B. Rollins (2015) como
sigue:
Etapa 1: Comprensión del negocio. Lograr obtener una definición del problema, los
objetivos del proyecto y los requisitos de la solución desde la perspectiva de negocio.
Etapa 2: Enfoque analítico. Expresar el problema bajo el contexto de técnicas
estadísticas y aprendizaje automático.
Etapa 3: Requisitos de datos. Determinado por el enfoque análitico se especificará los
requisitos de datos, que contemplan los contenidos, formatos y representaciones, de
acuerdo al dominio.
Etapa 4: Recopilación de datos. Identificar y reunir los recursos de datos disponibles (en
cualquier tipo, estructurado, no estructurado, semiestructurado) y que sean relevantes
para el dominio del problema.
Etapa 5: Comprensión de datos. Utilizar estadísticas descriptivas y técnicas de
visualización para obtener una comprensión del contenido de los datos. También se
aprovecha para evaluar su calidad.
Etapa 6: Preparación de datos. Permite construir el conjunto de datos, que será utilizado
en la siguiente etapa. Entre las actividades relevantes están la limpieza de datos,
combinar datos de múltiples fuentes y transformar los datos en variables de utilidad.
También se utiliza un proceso llamado ingeniería de características para crear variables
explicativas adicionales. Esta es la etapa que mayor tiempo suele requerir en los
proyectos de ciencia de datos.
Etapa 7: Modelado. Se enfoca en el desarrollo de modelos predictivos o descriptivos,
según sea el enfoque análitico previamente definido. Es posible que se realicen pruebas
con múltiples algoritmos y sus respectivos parámetros para encontrar el mejor modelo
con las variables disponibles.
Etapa 8: Evaluación. Previo a su implementación, se realiza la evaluación del modelo
para comprender su calidad y garantizar que se cubre el problema de negocio de forma