Ciencia de Datos
C u r s o B a s i c o
L a u r a H e r v e r t E s c o b a r
¿Qué es CRISP-
DM?
Cross Industry Standard Process for Data
Mining (Proceso Estándar Inter-Industrias
para Minería de Datos)
Modelo orientado para el manejo de
proyectos de datos
Comprensión del negocio
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Determinar objetivos Criterios de éxito del
Background Objetivos del negocio
de negocio negocio
Valoración de la Requisitos, supuestos y
Inventario de recursos restricciones
Riesgos y contigencias Terminología Costes y beneficios
situación
Determinar los
Metas de Data Mining Criterios de DM
objetivos de DM
Realizar el plan de En esta fase se busca entender los
Plan de Proyecto Valoración inicial objetivos y requerimientos del proyecto
Proyecto
desde una perspectiva de negocio y
convertir este conocimiento en la
definición de un problema de minería de
datos y un plan preliminar para alcanzar
los objetivos
Determinar objetivos del negocio
• En ésta etapa se busca describir el objetivo primario
del cliente, desde una perspectiva de negocio, así como
Es importante no establecer objetivos
describir los criterios para considerar el resultado del inalcanzables y marcar criterios de
evaluación tan realistas como sea posible.
proyecto como válido o útil desde el punto de vista del Además, como control de calidad, cada
uno de los criterios de éxito del proyecto
negocio. Esto puede ser muy específico y capaz de ser debería relacionarse con al menos uno de
los objetivos especificados de negocio, a
medido objetivamente, o podría ser más general y de modo de "matriz de trazabilidad" de
carácter subjetivo. objetivo de negocio (requisito) vs criterio
(caso de prueba)
• Identificar claramente el área del problema
• Describir el problema en términos generales: describir de manera informal el
problema a solucionar.
• Identificar e involucrar en el proyecto a personas o roles claves en el negocio.
• Definir el responsable de proyecto (project owner).
• Definir quién va a evaluar los criterios de éxito.
Checklist que • Identificar las unidades de negocio que van a ser afectadas por el
proyecto de minería de datos.
debería • Especificar todas las preguntas de negocio y cualquier otra exigencia tan
precisamente como sea posible.
• Definir los requisitos previos del proyecto: su motivación, objetivos, criterios de
abordar éxito...
• Identificar las necesidades y expectativas de los usuarios.
• Especificar las ventajas esperadas en términos de negocio.
• Si el proyecto es evolución de otro proyecto anterior, analizar la solución
actual, sus ventajas y desventajas y su nivel de aceptación.
• Identificar grupos de objetivos (por ejemplo, un informe para la dirección y/o
un sistema operacional para ser utilizado por los comerciales).
• Especificar criterios de éxito de negocio (por ejemplo, mejorar un 10% la tasa
de respuesta a una campaña de correo).
Valoración de la situación
• Implica una investigación más
detallada sobre todos los recursos,
Es importante tener en cuenta que el
restricciones, asunciones, y otros proyecto puede necesitar personal
técnico en cualquier momento en
factores que deberían ser considerados todas partes del proyecto, por
en la determinación del objetivo de ejemplo durante la transformación de
datos.
análisis de datos y el plan de proyecto. Cuidado con los costos ocultos, como
la extracción y procesamiento
repetitivo de los datos, cambios en
condiciones laborales del personal
involucrado, tiempo requerido para la
incorporación de personal adicional,
etc.
• Identificar el hardware básico y su • Comprobar el correcto acceso a fuentes de
disponibilidad para el proyecto de minería de datos (por ejemplo, restricciones de acceso, la
datos. contraseña requerida) y su accesibilidad
• Identificar las fuentes de datos y de técnica (los sistemas de operaciones, el
conocimiento y su tipo (fuentes en línea, sistema de administración de datos, el formato
expertos, documentación escrita, etc.). de archivo y de base de datos).
• Comprobar las herramientas y técnicas • Comprobar si el conocimiento relevante es
disponibles. accesible.
• Identificar al administrador de sistemas, el • Comprobar restricciones de presupuesto
administrador de base de datos, y el personal (gastos fijos, gastos de implementación, etc.).
Checklist que de soporte técnico para futuras preguntas.
• Identificar a los analistas de mercado, los
• Identificar los riesgos de negocio (por
ejemplo, la competencia), de organización (por
ejemplo, el departamento que solicita el
debería expertos en minería de datos, y estadísticos, y
comprobar su disponibilidad.
• Comprobar la disponibilidad de expertos de
proyecto no tiene financiación para el
proyecto), los riesgos financieros (por ejemplo,
aumentar la financiación depende de los
abordar dominio para fases posteriores.
• Capturar cualquier requerimiento en la
resultados iniciales de minería de datos), los
riesgos técnicos y los riesgos que dependen
de datos y de las fuentes de datos (por
planificación, incluyendo los requerimientos de
seguridad, restricciones legales, de privacidad, ejemplo, la mala calidad y cobertura).
información, y planificación de proyecto. • Desarrollar planes de contingencia.
• Aclarar todas los supuestos realizados • Estimar el coste para obtener la colección de
(incluyendo las implícitas), en particular, sobre datos, para desarrollar el proyecto y obtener la
calidad de datos (exactitud, disponibilidad), solución.
sobre factores externos (cuestiones
económicas, productos competitivos, avances • Identificar beneficios (por ejemplo, mejorar la
técnicos), las que sirven de base para satisfacción del cliente, ROI, y el aumento de
cualquiera de las estimaciones, y las las ganancias).
restricciones generales (por ejemplo, • Estimar los gastos de operación.
cuestiones legales, presupuesto, escalas de
tiempo, y recursos).
Determinar los objetivos de
DM
• En esta fase hay que describir las salidas que se pretende
conseguir en el proyecto que van a permitir el logro de los
objetivos de negocio. Los objetivos de minería de datos
declaran los objetivos de proyecto en términos técnicos.
• Es necesario también definir los criterios de un resultado
exitoso para el proyecto en términos técnicos (por ejemplo, un
cierto nivel de precisión o un perfil de probabilidad)
• Describir las salidas previstas del proyecto (normalmente
técnicas) que permiten el logro de los objetivos de negocio.
• Traducir las preguntas de negocio a objetivos de minería de
Checklist que datos (segmentación de clientes empleando un algoritmo de
clustering).
debería • Especificar los datos tipo del problema de análisis de datos
(por ejemplo, clasificación, predicción, clustering, etc.).
abordar • Especificar los criterios para evaluar el modelo (por ejemplo, la
exactitud del modelo, su funcionamiento y complejidad).
• Definir el patrón de pruebas para los criterios de evaluación.
• Especificar las reglas para aplicar criterios de evaluación
subjetivos (por ejemplo, la capacidad descriptiva del modelo)
Plan de proyecto
• En esta tarea se realiza el plan
para alcanzar los objetivos de
minería de datos y así alcanzar
los objetivos de negocio. El plan
debería especificar los pasos a
realizar durante el resto del
proyecto, incluyendo la selección
inicial de herramientas y técnicas.
• Estimar el esfuerzo y los recursos necesarios para alcanzar y
desarrollar la solución.
• Identificar los pasos críticos del proyecto.
• Definir los puntos de decisión.
Checklist que • Definir los puntos de revisión.
• Identificar las principales iteraciones.
debería • Crear una lista de criterios de selección para herramientas y
técnicas (o usar uno existente si está disponible), escoger
abordar dichas herramientas y técnicas y evaluar su adecuación al
problema.
• Definir el plan de proyecto y discutir su viabilidad con todo el
personal involucrado.
• Combinar todos los objetivos identificados y las técnicas
seleccionadas en un procedimiento coherente que aborde los
objetivos del negocio y defina los criterios de éxito
Comprensión del negocio
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Recolección de datos
Descripción de los
datos
Exploración de los
datos
Implica estudiar más de cerca los datos
Verificar la calidad de disponibles. Este paso es esencial para
los datos evitar problemas inesperados durante la
siguiente fase (preparación de datos) que
suele ser la fase más larga de un
proyecto.
Recolección de los datos
Check List
• Datos existentes. Incluye una amplia variedad de •¿Qué atributos (columnas) de la base de datos
datos, como datos transaccionales, datos de parecen más prometedores?
encuesta, registros Web, etc. Tenga en cuenta si los •¿Qué atributos no parecen relevantes y se
datos existentes son suficientes para adaptarse a pueden excluir?
sus necesidades. •¿Existen datos suficientes para obtener
• Datos adquiridos. ¿Su organización utiliza datos conclusiones generales o realizar predicciones
adicionales, como datos demográficos? Si no los precisas?
utiliza, considere si son necesarios. •¿Dispone de atributos suficientes para su
• Datos adicionales. Si los orígenes anteriores no método de modelado?
satisfacen sus necesidades, es posible que necesite •¿Está fusionando varios orígenes de datos? En
realizar encuestas o realizar seguimientos caso afirmativo, ¿existen áreas que puedan
adicionales para servir de complemento a los plantear problemas al fusionar?
almacenes de datos actuales. •¿Ha considerado cómo se gestionan los valores
perdidos en cada origen de datos?
Descripción de los datos
Exploración de los datos
El análisis exploratorio de datos es un
proceso de investigación en el que se
usan estadísticas de resumen y
herramientas gráficas para llegar a
conocer los datos y comprender lo que se
puede averiguar de ellos.
Verificar la calidad de los datos
• Los datos perdidos incluyen valores vacíos o codificados como sin respuesta
(como $null$, ? o 999).
• Los errores de datos suelen ser errores tipográficos cometidos al introducir los
datos.
• Los errores de mediciones incluyen datos que se introducen correctamente, pero
This Photo by Unknown Author is licensed under CC BY-SA
se basan en un esquema de mediciones incorrecto.
• Las incoherencias de codificación suelen incluir unidades no estándar de medida o
valores incoherentes, como el uso de M y masculino para expresar el género.
• Los metadatos erróneos incluyen errores entre el significado aparente de un
campo incluido en un nombre o definición de campo.
Preparación de los datos
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Justificar la
Seleccionar los
inclusión o
datos
exclusión
Limpieza de datos
Atributos
derivados
Construcción de
los datos
Registros
generados
Integración de
datos
se estima que la
Formato de los preparación de datos
datos
suele llevar el 50-70 % del
tiempo y esfuerzo de un
proyecto
Preparación de los datos
• Seleccionar datos • Construcción de datos
• Reconsiderar los criterios de selección de • Atributos derivados.
datos. Decida qué conjunto de datos se • Conocimiento de fondo.
utilizará. • ¿Cómo se pueden construir o imputar los atributos faltantes?
• Recopilar datos adicionales apropiados
(internos o externos). • Integrar datos
• Considere el uso de técnicas de muestreo. • Integre fuentes y almacene resultados (nuevas tablas y registros).
• Explique por qué se incluyeron o excluyeron
ciertos datos.
• Formatear datos
• Reorganización de atributos (algunas herramientas tienen
• Limpieza de datos requisitos sobre el orden de los atributos, por ejemplo, el primer
• Corrija, elimine o ignore el ruido. campo es un identificador único para cada registro o el último
• Decida cómo abordar los valores especiales y campo es el campo de resultado que el modelo debe predecir).
su significado (99 para el estado civil). • Reordenar registros (Quizás la herramienta de modelado requiera
• Nivel de agregación, valores faltantes, etc. que los registros se ordenen según el valor del atributo de
• ¿Valores atípicos? resultado).
• Reformateado dentro del valor (estos son cambios puramente
sintácticos realizados para satisfacer los requisitos de la
herramienta de modelado específica, eliminar caracteres ilegales,
mayúsculas y minúsculas).
Modelación
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Modelo
Seleccionar la técnica
de modelado
Supuestos del
modelo
Generar el diseño de
la prueba
Parámetros del
modelo
Construir el modelo Modelos
Etapa que genera las
soluciones al problema
Descripción del
modelo
Seleccionar la técnica de modelación
• En este punto se selecciona la técnica de
modelado real a utilizar. Aunque se haya podido • Checklist
seleccionar una herramienta durante la fase de
“comprensión del negocio”, esta tarea se refiere Decidir las técnicas apropiadas para el
escenario, teniendo en cuenta la herramienta
a la técnica de modelado específico. Si se seleccionada.
aplican múltiples técnicas, se realiza esta tarea Registrar las técnicas de modelado reales que
se van a emplear.
para cada técnica seleccionada. Analizar cualquier supuesto realizado por la
técnica de modelado sobre los datos (por
• Muchas técnicas de modelado hacen supuestos
ejemplo, la calidad, el formato, la distribución),
específicos sobre los datos -por ejemplo, que compararlas con el informe de descripción de
datos, y asegurarse de que siguen siendo
todos los atributos tengan distribuciones válidas.
uniformes, no encontrar valores no permitidos,
etc.-, que hay que tener en cuenta.
Diseño de las pruebas
• Antes de construir un modelo, hay que probar la calidad
y validez del modelo.
• Típicamente se separa el conjunto de datos en un Checklist
conjunto de entrenamiento y uno de evaluación; se Comprobar que existen tests de
construye el modelo sobre el conjunto de prueba para cada objetivo de
entrenamiento, y se estima su calidad sobre el conjunto minería de datos.
de evaluación. Definir los pasos necesarios (el
número de iteraciones, métricas
• En esta fase se describe el plan para el entrenamiento y
objetivo, etc.).
la evaluación de los modelos, y se determina cómo se
Preparar los datos requeridos para
divide el conjunto de datos disponible en datos de la prueba.
entrenamiento y de datos de evaluación.
• También se pueden establecer otras estrategias de
evaluación, como el uso de validación cruzada (cross-
validation).
Construcción del modelo
• Una vez hemos seleccionado el conjunto de datos de
Checklist
entrenamiento, se ejecuta la herramienta de modelado
Describir cualquier característica del modelo actual que puede
sobre él para crear uno o más modelos. En cualquier ser útil para el futuro.
herramienta de modelado, existen a menudo un gran
Ajustar los parámetros de ejecución usados para producir el
número de parámetros que pueden ser ajustados, así modelo.
que es necesario listar los parámetros y sus valores Dar una descripción detallada del modelo y cualquier rasgo
escogidos, con el razonamiento para ajustar los especial.
parámetros a ese valor. Para modelos basados en reglas, listar las reglas producidas,
más cualquier evaluación de cada regla y la precisión global del
modelo
• Al final de esta fase se obtienen los modelos reales Para modelos "caja negra", listar cualquier información técnica
producidos por la herramienta (no un informe), y es sobre el modelo (como la topología de las redes neuronales) y
necesario describirlos, interpretarlos y documentar cualquier descripción de comportamiento producido por el
cualquier dificultad encontrada con sus significados.
proceso de modelado (como la exactitud o la sensibilidad).
Describir el comportamiento del modelo y su interpretación.
Expresar conclusiones respecto a los patrones en los datos (si
hay alguno)..
22
Evaluación
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Revisar los
resultados del
procesamiento de
Evaluar los datos
resultados
Modelos
aprobados
Proceso de
revisión
Lista de posibles
acciones
Determinar los
siguientes pasos
En ésta etapa se evala el
Decisiones
resultado y se toman
acciones de mejora y
minimización del riesgo
Evaluación del modelo
Checklist
• Para evaluar el modelo es necesario interpretarlo según el Ejecutar los tests de evaluación y evaluar los resultados en lo que
dominio, los criterios de éxito y el diseño de prueba concierne a criterios de evaluación.
deseado, clasificarlo, evaluarlo según los criterios de Comparar los resultados de la evaluación y la interpretación.
evaluación, aplicar una sola técnica más de una vez, Hacer un ranking de resultados en lo que concierne a criterios de éxito y
generar resultados con varias técnicas diferentes y, evaluación, y seleccionar los mejores modelos.
finalmente, comparar todos los resultados según los Interpretar los resultados en términos de negocio (tanto como sea
criterios de evaluación. posible en esta etapa).
Conseguir los comentarios de los modelos por expertos en los datos o
• Como salida de esta tarea se deben resumir los resultados
en el dominio.
de evaluación, listar la calidad obtenida por todos los
Chequear la credibilidad del modelo.
modelos generados (por ejemplo, en términos de
Comprobar los efectos sobre los objetivos de minería de datos.
exactitud -accuracy-), y clasificar su calidad en relación
con los demás. Comprobar los modelos contra una base de conocimiento determinada
para ver si la información descubierta es nueva y útil.
• Según la evaluación del modelo, se deben revisar y Comprobar la fiabilidad de los resultados.
ajustar los parámetros de configuración para la siguiente Analizar el potencial para el desarrollo de cada resultado.
iteración de la tarea de “construcción del modelo”, así
Si hay una descripción verbal del modelo generado (por ejemplo, en
como repetir la construcción y evaluación del modelo forma de reglas), evaluar las reglas.
hasta que se encuentre el mejor modelo
Analizar aspectos específicos de cada técnica de modelado y determinar
si es posible realizar ciertos ajustes en los parámetros que pudieran
conducir a mejores resultados.
Despliegue
Comprensión Comprensión Preparación
Modelado Evaluación Despliegue
del negocio de los datos de los datos
Plan de despliegue
Plan de monitoreo y
mantenimiento
La fase de despliegue implica
Reporte final
implementar el modelo en un entorno de
producción, preparar los datos
necesarios, integrar el modelo, probarlo Revisión de proyecto
y validar su rendimiento, monitorear y
mantener el modelo y documentar el
proceso de implementación. Es Documentación de la
experiencia
importante asegurarse de que el modelo
siga siendo efectivo y se realicen las
mejoras necesarias para garantizar su
eficacia en el entorno de producción.
Despliegue
• Planificación de implementación: En esta etapa, se planifica cómo se va a implementar el modelo en el
entorno de producción. Esto puede incluir la selección de herramientas y tecnologías, la definición de roles y
responsabilidades, y la definición de un plan de implementación.
• Preparación de datos: Se preparan los datos que se utilizarán en el entorno de producción para asegurarse
de que el modelo pueda utilizarlos de manera efectiva. Esto puede incluir la limpieza y transformación de los
datos para que sean compatibles con el modelo.
• Integración del modelo: El modelo se integra en el entorno de producción. Esto puede implicar la integración
con otros sistemas, la implementación de interfaces de usuario, y la configuración de recursos informáticos
para soportar el modelo.
• Prueba y validación: En esta etapa, se prueba y valida el modelo en el entorno de producción para
asegurarse de que funciona correctamente y produce resultados precisos.
• Monitoreo y mantenimiento: Una vez que el modelo está en funcionamiento, se realiza un monitoreo
constante para asegurarse de que sigue siendo efectivo y se realizan las mejoras necesarias.
• Documentación: Se documenta el proceso de implementación para futuras referencias.