E.F.P.
Ciencia de Datos
Aplicada a la Industria
Proceso KDD
Proceso KDD
• KDD significa Knowledge Discovery in Databases
(Descubrimiento de conocimiento en bases de datos).
• Proceso metodológico de múltiples pasos iterativo para el
descubrimiento de conocimiento en grandes colecciones de datos.
• A veces se confunde con el concepto de Minería de Datos (técnicas
que permiten explorar bases de datos para encontrar patrones,
tendencias o reglas que expliquen el comportamiento de los datos).
• La MD es el núcleo de todo el proceso KDD.
Proceso KDD
• Co
Proyectos de Minería de datos
• Modelos de proceso para proyectos de Minería de datos (MD).
• Diversos modelos de proceso propuestos para el desarrollo de
proyectos de MD.
• SEMMA (Sample, Explore, Modify, Model, Assess)
• DMAMC (Definir, Medir, Analizar, Mejorar, Controlar)
• CRISP-DM (Cross Industry Standard Process for Data Mining)
• El ultimo es uno de los modelos principalmente utilizados en
ambientes académico e industrial.
CRISP-DM
• Orígenes 1999.
• Un consorcio de empresas europeas proponen a partir de diferentes
versiones de KDD (Knowledge Discovery in Databases) el desarrollo
de una guía de referencia de libre distribución, denominada CRISP-
DM (Cross Industry Standard Process for Data Mining).
• CRISP-DM, organiza el desarrollo de un proyecto de Data Mining, en
una serie de 6 fases.
• La sucesión de fases no es necesariamente rígida.
CRISP-DM
CRISP-DM
• Cada fase es estructurada en varias tareas generales.
• Las tareas generales se proyectan a tareas específicas, donde
finalmente se describen las acciones que deben ser desarrolladas
para situaciones específicas (no se propone como realizarlas)
Fases
• 1. Comprensión del negocio o problema.
• Es probablemente la más importante, aglutina las tareas de
comprensión de los objetivos y requisitos del proyecto desde una
perspectiva empresarial o institucional.
• Con el fin de convertirlos en objetivos técnicos y en un plan de
proyecto.
Fases
• 2. Comprensión de los datos
• Comprende la recolección inicial de datos, para establecer un primer
contacto con el problema, familiarizándose con ellos, identificar su calidad
y establecer las relaciones más evidentes que permitan definir las primeras
hipótesis.
• Después de adquiridos los datos deben ser descritos (establecer
volúmenes de datos, registros, campos, su significado y descripción del
formato inicial).
• A continuación, se procede a su exploración (aplicación de pruebas
estadísticas básicas, tablas de frecuencia y gráficos de distribución).
Fases
• Finalmente se debe verificar la calidad de los datos para determinar
la consistencia de los valores individuales de los campos, la cantidad y
distribución de los valores nulos, y para encontrar valores fuera de
rango, los cuales pueden constituirse en ruido para el proceso.
• La idea en este punto, es asegurar la completitud y corrección de los
datos.
Fases
• 3. Preparación de los datos
• En esta fase se procede a preparar los datos adaptarlos a las técnicas
de Data Mining que se utilicen posteriormente, tales como técnicas
de visualización de datos, de búsqueda de relaciones entre variables
u otras medidas para exploración de los datos.
• La preparación de datos incluye las tareas generales de selección de
datos a los que se va a aplicar una determinada técnica de modelado,
limpieza de datos, generación de variables adicionales, integración de
diferentes orígenes de datos y cambios de formato.
Fases
• 4. Modelado
• En esta fase se seleccionan las técnicas de modelado más apropiadas
para el proyecto de Data Mining específico.
• Las técnicas a utilizar se eligen en función de los siguientes criterios:
o Ser apropiada al problema.
o Disponer de datos adecuados.
o Cumplir los requisitos del problema.
o Tiempo adecuado para obtener un modelo.
o Conocimiento de la técnica.
Fases
• 5. Evaluación
• En esta fase se evalúa el modelo, teniendo en cuenta el cumplimiento
de los criterios de éxito del problema.
• Es preciso revisar el proceso, teniendo en cuenta los resultados
obtenidos, para poder repetir algún paso anterior, en el que se haya
posiblemente cometido algún error.
• Se pueden emplear herramientas para la interpretación de los
resultados.
Fases
• 6. Despliegue o Implementación
• Una vez que el modelo ha sido construido y validado, se transforma
el conocimiento obtenido en acciones dentro del proceso de negocio,
por ejemplo, mediante recomendación de acciones basadas en la
observación del modelo y sus resultados.
• Además se debe documentar y presentar los resultados de manera
comprensible para el usuario. Se debe asegurar el mantenimiento de
la aplicación y la posible difusión de los resultados.
Modelos
• En la fase de modelado se debe encontrar un “modelo” válido, útil y
entendible que describa patrones de acuerdo a la información.
• Un modelo es la representación que intenta explicar patrones en
los datos.
• No existe “el modelo”, existen muchos métodos o algoritmos que
podrían satisfacer las necesidades dependiendo de los objetivos del
estudio y de los datos que se quieran analizar.
Técnicas
• Las técnicas utilizadas en Ciencia de Datos pueden clasificarse en:
• Técnicas de modelado originado por la teoría
• Técnicas de modelado originado por los datos
Técnicas
• Técnicas de modelado originado por la teoría.
• Son técnicas predictivas. Las variables se clasifican en dependientes e
independientes. Se especifica un modelo para los datos en base a un
conocimiento teórico previo.
• El modelo supuesto debe contrastarse antes de aceptarlo como válido. Fases:
• 1. Identificación, identificar el mejor modelo posible que ajuste los datos.
• 2. Estimación, cálculo de los parámetros.
• 3. Validación, contrastar la validez del modelo estimado
• 4. Predicción, utilización del modelo para predecir valores futuros.
• Ejemplo, regresión, análisis de la varianza y covarianza, análisis discriminante y
series temporales.
Técnicas
• Técnicas de modelado originado por los datos.
• Son técnicas descriptivas. No hay variables dependientes e
independientes.
• No se supone la existencia de un modelo previo. Los modelos se
crean automáticamente partiendo del reconocimiento de patrones.
• Los modelos deben contrastarse antes de aceptarse como válido.
• Ejemplo, análisis de clusters.
Técnicas
Relación tarea/técnica
Fuentes de datos
Herramientas
• Lenguajes más usados R y Python (+scikit learn)
RStudio