0% encontró este documento útil (0 votos)

49 vistas23 páginas

Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria

Este documento describe el proceso KDD (Knowledge Discovery in Databases) para el descubrimiento de conocimiento en bases de datos. Explica que el proceso KDD es iterativo y comprende múltiples pasos como la comprensión del negocio, comprensión y preparación de los datos, modelado, evaluación e implementación. También describe el modelo CRISP-DM, uno de los modelos más utilizados para proyectos de minería de datos, el cual organiza el proceso en 6 fases.

Cargado por

Shaky Games

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

49 vistas23 páginas

Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria

Cargado por

Shaky Games

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

E.F.P.

Ciencia de Datos
Aplicada a la Industria

Proceso KDD
Proceso KDD
• KDD significa Knowledge Discovery in Databases
(Descubrimiento de conocimiento en bases de datos).

• Proceso metodológico de múltiples pasos iterativo para el

descubrimiento de conocimiento en grandes colecciones de datos.

• A veces se confunde con el concepto de Minería de Datos (técnicas

que permiten explorar bases de datos para encontrar patrones,
tendencias o reglas que expliquen el comportamiento de los datos).

• La MD es el núcleo de todo el proceso KDD.

Proceso KDD

• Co
Proyectos de Minería de datos
• Modelos de proceso para proyectos de Minería de datos (MD).

• Diversos modelos de proceso propuestos para el desarrollo de

proyectos de MD.

• SEMMA (Sample, Explore, Modify, Model, Assess)

• DMAMC (Definir, Medir, Analizar, Mejorar, Controlar)
• CRISP-DM (Cross Industry Standard Process for Data Mining)

• El ultimo es uno de los modelos principalmente utilizados en

ambientes académico e industrial.
CRISP-DM
• Orígenes 1999.

• Un consorcio de empresas europeas proponen a partir de diferentes

versiones de KDD (Knowledge Discovery in Databases) el desarrollo
de una guía de referencia de libre distribución, denominada CRISP-
DM (Cross Industry Standard Process for Data Mining).

• CRISP-DM, organiza el desarrollo de un proyecto de Data Mining, en

una serie de 6 fases.

• La sucesión de fases no es necesariamente rígida.

CRISP-DM
CRISP-DM
• Cada fase es estructurada en varias tareas generales.

• Las tareas generales se proyectan a tareas específicas, donde

finalmente se describen las acciones que deben ser desarrolladas
para situaciones específicas (no se propone como realizarlas)
Fases
• 1. Comprensión del negocio o problema.

• Es probablemente la más importante, aglutina las tareas de

comprensión de los objetivos y requisitos del proyecto desde una
perspectiva empresarial o institucional.

• Con el fin de convertirlos en objetivos técnicos y en un plan de

proyecto.
Fases
• 2. Comprensión de los datos

• Comprende la recolección inicial de datos, para establecer un primer

contacto con el problema, familiarizándose con ellos, identificar su calidad
y establecer las relaciones más evidentes que permitan definir las primeras
hipótesis.

• Después de adquiridos los datos deben ser descritos (establecer

volúmenes de datos, registros, campos, su significado y descripción del
formato inicial).

• A continuación, se procede a su exploración (aplicación de pruebas

estadísticas básicas, tablas de frecuencia y gráficos de distribución).
Fases
• Finalmente se debe verificar la calidad de los datos para determinar
la consistencia de los valores individuales de los campos, la cantidad y
distribución de los valores nulos, y para encontrar valores fuera de
rango, los cuales pueden constituirse en ruido para el proceso.

• La idea en este punto, es asegurar la completitud y corrección de los

datos.
Fases
• 3. Preparación de los datos

• En esta fase se procede a preparar los datos adaptarlos a las técnicas

de Data Mining que se utilicen posteriormente, tales como técnicas
de visualización de datos, de búsqueda de relaciones entre variables
u otras medidas para exploración de los datos.

• La preparación de datos incluye las tareas generales de selección de

datos a los que se va a aplicar una determinada técnica de modelado,
limpieza de datos, generación de variables adicionales, integración de
diferentes orígenes de datos y cambios de formato.
Fases
• 4. Modelado

• En esta fase se seleccionan las técnicas de modelado más apropiadas

para el proyecto de Data Mining específico.
• Las técnicas a utilizar se eligen en función de los siguientes criterios:

o Ser apropiada al problema.

o Disponer de datos adecuados.
o Cumplir los requisitos del problema.
o Tiempo adecuado para obtener un modelo.
o Conocimiento de la técnica.
Fases
• 5. Evaluación

• En esta fase se evalúa el modelo, teniendo en cuenta el cumplimiento

de los criterios de éxito del problema.

• Es preciso revisar el proceso, teniendo en cuenta los resultados

obtenidos, para poder repetir algún paso anterior, en el que se haya
posiblemente cometido algún error.

• Se pueden emplear herramientas para la interpretación de los

resultados.
Fases
• 6. Despliegue o Implementación

• Una vez que el modelo ha sido construido y validado, se transforma

el conocimiento obtenido en acciones dentro del proceso de negocio,
por ejemplo, mediante recomendación de acciones basadas en la
observación del modelo y sus resultados.

• Además se debe documentar y presentar los resultados de manera

comprensible para el usuario. Se debe asegurar el mantenimiento de
la aplicación y la posible difusión de los resultados.
Modelos
• En la fase de modelado se debe encontrar un “modelo” válido, útil y
entendible que describa patrones de acuerdo a la información.

• Un modelo es la representación que intenta explicar patrones en

los datos.

• No existe “el modelo”, existen muchos métodos o algoritmos que

podrían satisfacer las necesidades dependiendo de los objetivos del
estudio y de los datos que se quieran analizar.
Técnicas

• Las técnicas utilizadas en Ciencia de Datos pueden clasificarse en:

• Técnicas de modelado originado por la teoría

• Técnicas de modelado originado por los datos
Técnicas
• Técnicas de modelado originado por la teoría.

• Son técnicas predictivas. Las variables se clasifican en dependientes e

independientes. Se especifica un modelo para los datos en base a un
conocimiento teórico previo.

• El modelo supuesto debe contrastarse antes de aceptarlo como válido. Fases:

• 1. Identificación, identificar el mejor modelo posible que ajuste los datos.
• 2. Estimación, cálculo de los parámetros.
• 3. Validación, contrastar la validez del modelo estimado
• 4. Predicción, utilización del modelo para predecir valores futuros.

• Ejemplo, regresión, análisis de la varianza y covarianza, análisis discriminante y

series temporales.
Técnicas
• Técnicas de modelado originado por los datos.

• Son técnicas descriptivas. No hay variables dependientes e

independientes.

• No se supone la existencia de un modelo previo. Los modelos se

crean automáticamente partiendo del reconocimiento de patrones.

• Los modelos deben contrastarse antes de aceptarse como válido.

• Ejemplo, análisis de clusters.

Técnicas
Relación tarea/técnica
Fuentes de datos
Herramientas
• Lenguajes más usados R y Python (+scikit learn)
RStudio

También podría gustarte

Introducción al KDD: Fases y Retos
Aún no hay calificaciones
Introducción al KDD: Fases y Retos
34 páginas
Metodologías en Ciencia de Datos
Aún no hay calificaciones
Metodologías en Ciencia de Datos
45 páginas
Etapas del Proceso de Data Mining
Aún no hay calificaciones
Etapas del Proceso de Data Mining
4 páginas
MPA-LaCiencia de Datos Yaplicaciones
Aún no hay calificaciones
MPA-LaCiencia de Datos Yaplicaciones
67 páginas
Minería de Datos
Aún no hay calificaciones
Minería de Datos
10 páginas
Fund Ciencia de Datos Semana 2
100% (1)
Fund Ciencia de Datos Semana 2
22 páginas
Metodologia Crips
Aún no hay calificaciones
Metodologia Crips
6 páginas
CRISP-DM y SEMMA: Guía Completa
Aún no hay calificaciones
CRISP-DM y SEMMA: Guía Completa
28 páginas
Unidad 1. Semana 2. Clase 4
Aún no hay calificaciones
Unidad 1. Semana 2. Clase 4
18 páginas
KDD
Aún no hay calificaciones
KDD
6 páginas
Tarea Inteligencia 2
Aún no hay calificaciones
Tarea Inteligencia 2
9 páginas
2.5 Tareas de La Minería de Datos
Aún no hay calificaciones
2.5 Tareas de La Minería de Datos
22 páginas
Crisp DM
Aún no hay calificaciones
Crisp DM
3 páginas
Proceso KDD
Aún no hay calificaciones
Proceso KDD
15 páginas
Semana 3
Aún no hay calificaciones
Semana 3
20 páginas
Metodología CRISP
Aún no hay calificaciones
Metodología CRISP
10 páginas
Minería de Datos Usando Sistemas Inteligentes2 PDF
Aún no hay calificaciones
Minería de Datos Usando Sistemas Inteligentes2 PDF
214 páginas
Guía CRISP-DM para Minería de Datos
Aún no hay calificaciones
Guía CRISP-DM para Minería de Datos
9 páginas
2 Metodología Adecuada para El Análisis de Datos
Aún no hay calificaciones
2 Metodología Adecuada para El Análisis de Datos
5 páginas
Business Problems and Data Science Solutions
Aún no hay calificaciones
Business Problems and Data Science Solutions
2 páginas
Metodologias para La Gestion de Procesos de Mineria de Datos
Aún no hay calificaciones
Metodologias para La Gestion de Procesos de Mineria de Datos
9 páginas
Minería de Datos: Guía Completa
Aún no hay calificaciones
Minería de Datos: Guía Completa
10 páginas
Investigación - Proceso de Minería de Datos - Alfredo Avendaño Serrano
Aún no hay calificaciones
Investigación - Proceso de Minería de Datos - Alfredo Avendaño Serrano
17 páginas
Cuestionario Unidad 3
Aún no hay calificaciones
Cuestionario Unidad 3
6 páginas
Fases Clave en Minería de Datos
Aún no hay calificaciones
Fases Clave en Minería de Datos
10 páginas
Proceso KDD
Aún no hay calificaciones
Proceso KDD
15 páginas
P3 - Metodologias
Aún no hay calificaciones
P3 - Metodologias
31 páginas
Clase Semana 7
Aún no hay calificaciones
Clase Semana 7
31 páginas
Proceso KDD y Minería de Datos
Aún no hay calificaciones
Proceso KDD y Minería de Datos
8 páginas
TAB - Manual Tablas Sap
Aún no hay calificaciones
TAB - Manual Tablas Sap
38 páginas
Nolasco Carlos 2da Actividad
Aún no hay calificaciones
Nolasco Carlos 2da Actividad
8 páginas
2 Metodologias
Aún no hay calificaciones
2 Metodologias
24 páginas
Metodología CRISP-DM en Minería de Datos
Aún no hay calificaciones
Metodología CRISP-DM en Minería de Datos
13 páginas
Presentacion Data Mining
Aún no hay calificaciones
Presentacion Data Mining
30 páginas
Descubrimiento de Conocimiento en Bases de Datos
Aún no hay calificaciones
Descubrimiento de Conocimiento en Bases de Datos
30 páginas
Apuntes Big Data
Aún no hay calificaciones
Apuntes Big Data
22 páginas
1.2.1 Metodología Minería de Datos
Aún no hay calificaciones
1.2.1 Metodología Minería de Datos
19 páginas
Clase 1 Introduccion DM
Aún no hay calificaciones
Clase 1 Introduccion DM
29 páginas
Foro de Debate y Argumentación
Aún no hay calificaciones
Foro de Debate y Argumentación
5 páginas
Cuáles Son Los Pasos para Desarrollar Un Proyecto de Ciencia de Datos
Aún no hay calificaciones
Cuáles Son Los Pasos para Desarrollar Un Proyecto de Ciencia de Datos
6 páginas
Proceso de Minería de Datos
Aún no hay calificaciones
Proceso de Minería de Datos
9 páginas
Metodologías KDD y CRISP-DM en Minería de Datos
Aún no hay calificaciones
Metodologías KDD y CRISP-DM en Minería de Datos
9 páginas
Minería de Datos Introducción
100% (4)
Minería de Datos Introducción
30 páginas
Optimización de Datos para Modelado
Aún no hay calificaciones
Optimización de Datos para Modelado
5 páginas
VF Amd101 Apunte Semana 9
Aún no hay calificaciones
VF Amd101 Apunte Semana 9
17 páginas
Minería de Datos
Aún no hay calificaciones
Minería de Datos
9 páginas
Proceso KDD: Minería de Datos y Etapas
Aún no hay calificaciones
Proceso KDD: Minería de Datos y Etapas
7 páginas
Proyecto de Auditoría de Sistemas
Aún no hay calificaciones
Proyecto de Auditoría de Sistemas
16 páginas
Metodología CRISP
Aún no hay calificaciones
Metodología CRISP
10 páginas
Metodología de La Ciencia de Datos 2
Aún no hay calificaciones
Metodología de La Ciencia de Datos 2
33 páginas
METODO EBI - Cris - Castro
Aún no hay calificaciones
METODO EBI - Cris - Castro
5 páginas
Árboles de Decisión en Data Mining
Aún no hay calificaciones
Árboles de Decisión en Data Mining
8 páginas
Pasos CRISP-DM en Ciencia de Datos
Aún no hay calificaciones
Pasos CRISP-DM en Ciencia de Datos
6 páginas
Caso de Exito Mineria de Datos
Aún no hay calificaciones
Caso de Exito Mineria de Datos
6 páginas
Expo - Mineria de Datos
Aún no hay calificaciones
Expo - Mineria de Datos
9 páginas
Crisp DM
Aún no hay calificaciones
Crisp DM
12 páginas
Crisp DM
Aún no hay calificaciones
Crisp DM
12 páginas
KKD
Aún no hay calificaciones
KKD
8 páginas
03 - Sistema de Salud de Argentina - Sectores Sabado 10 Subir
Aún no hay calificaciones
03 - Sistema de Salud de Argentina - Sectores Sabado 10 Subir
119 páginas
2024 - 1 - Caso Tekno Bike Alter. 2
Aún no hay calificaciones
2024 - 1 - Caso Tekno Bike Alter. 2
66 páginas
Hoja de Datos Tecles Electricos
Aún no hay calificaciones
Hoja de Datos Tecles Electricos
60 páginas
Misión TIC 2022
Aún no hay calificaciones
Misión TIC 2022
7 páginas
Informe de Inconsistencias en Datos de Salud
Aún no hay calificaciones
Informe de Inconsistencias en Datos de Salud
994 páginas
Comparativa de Bebidas Energizantes: Amper vs Monster
Aún no hay calificaciones
Comparativa de Bebidas Energizantes: Amper vs Monster
6 páginas
HORA SANTA Sep2013
Aún no hay calificaciones
HORA SANTA Sep2013
4 páginas
Ficha de Trababajo 01 Cyt Gou 2023
Aún no hay calificaciones
Ficha de Trababajo 01 Cyt Gou 2023
4 páginas
Costo Estandar PDF
Aún no hay calificaciones
Costo Estandar PDF
20 páginas
Ensayo de Tracción en Metales
67% (3)
Ensayo de Tracción en Metales
2 páginas
Jornalización CONDUCTA - ANORMAL - II-TERCER PERIODO 2020 Virtual
Aún no hay calificaciones
Jornalización CONDUCTA - ANORMAL - II-TERCER PERIODO 2020 Virtual
4 páginas
Análisis Fiscal de Sincelejo 2020-2023
Aún no hay calificaciones
Análisis Fiscal de Sincelejo 2020-2023
8 páginas
Modelo Agroecológico para Gallinas
Aún no hay calificaciones
Modelo Agroecológico para Gallinas
6 páginas
Solicitud de Licencia.
Aún no hay calificaciones
Solicitud de Licencia.
4 páginas
Libro Manual de Estadística
Aún no hay calificaciones
Libro Manual de Estadística
230 páginas
Infografía sobre la Huella de Carbono
Aún no hay calificaciones
Infografía sobre la Huella de Carbono
3 páginas
Introducción a la Ecología y su Importancia
Aún no hay calificaciones
Introducción a la Ecología y su Importancia
16 páginas
Tribunal Negó Recurso de La Defensa de Nicolás Petro Burgos
Aún no hay calificaciones
Tribunal Negó Recurso de La Defensa de Nicolás Petro Burgos
8 páginas
Sistema de lubricación del motor
Aún no hay calificaciones
Sistema de lubricación del motor
14 páginas
Gobierno Municipal Del Cantón Guamote Planilla Tres
Aún no hay calificaciones
Gobierno Municipal Del Cantón Guamote Planilla Tres
10 páginas
Evolución de las Bases de Datos
Aún no hay calificaciones
Evolución de las Bases de Datos
1 página
Búsqueda de Esmond Donelly
Aún no hay calificaciones
Búsqueda de Esmond Donelly
235 páginas
Informe de Ensayo con Tintes Penetrantes
Aún no hay calificaciones
Informe de Ensayo con Tintes Penetrantes
3 páginas
Punto de Ignición
Aún no hay calificaciones
Punto de Ignición
3 páginas
Diagrama 6
Aún no hay calificaciones
Diagrama 6
2 páginas
Manual de Estrategias Metodología Orquesta-Escuela - 2024
Aún no hay calificaciones
Manual de Estrategias Metodología Orquesta-Escuela - 2024
52 páginas
AVALUO Catastral
100% (1)
AVALUO Catastral
13 páginas
Authority Astrology
Aún no hay calificaciones
Authority Astrology
1 página
Cosmologia - Geofisica
Aún no hay calificaciones
Cosmologia - Geofisica
20 páginas
Análisis de Terreno en Campeche
Aún no hay calificaciones
Análisis de Terreno en Campeche
3 páginas