0% encontró este documento útil (0 votos)
528 vistas6 páginas

KDD

El documento describe el proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD). KDD involucra la preparación, limpieza y transformación de datos, la selección de algoritmos de minería de datos, la evaluación de resultados y la visualización de patrones. El objetivo es encontrar patrones y conocimiento útil en grandes conjuntos de datos a través de técnicas estadísticas y de aprendizaje automático.

Cargado por

Magno Taipe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
528 vistas6 páginas

KDD

El documento describe el proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD). KDD involucra la preparación, limpieza y transformación de datos, la selección de algoritmos de minería de datos, la evaluación de resultados y la visualización de patrones. El objetivo es encontrar patrones y conocimiento útil en grandes conjuntos de datos a través de técnicas estadísticas y de aprendizaje automático.

Cargado por

Magno Taipe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

1.

KDD

Muchas personas que empiezan a explorar el área confunden que este concepto es Minería de
Datos, sin embargo no es así. La Minería de Datos en realidad es el núcleo de todo un proceso
llamado Descubrimiento de Conocimiento en Base de Datos (Knowledge Discovery in Databases
– KDD), el cual es un proceso metodológico para encontrar un “modelo” válido, útil y entendible
que describa patrones de acuerdo a la información, y como modelo entendemos que es la
representación que intenta explicar ese patrón en los datos.

Con el término “descubrimiento de conocimiento en bases de datos”, Knowlegde Discovery


Databases o KKD, fue designado el proceso que pretende obtener conocimiento a partir de datos
almacenados en bodegas (data warehouse). En dicho proceso se incluyen la preparación de los
datos, el análisis estadístico, el algoritmo usado para la minería de datos y la evaluación e
interpretación de los mismos, obteniendo como resultado el descubrimiento de conocimiento.

Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones. Para


conseguirlo harán falta técnicas de aprendizaje. Tareas comunes en KDD son la inducción de
reglas, los problemas de clasificación y clustering, el reconocimiento de patrones, el modelado
predictivo, la detección de dependencias, etc..

Los datos recogen un conjunto de hechos (una base de datos) y los patrones son expresiones
que describen un subconjunto de los datos (un modelo aplicable a ese subconjunto). KDD
involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros.
Los patrones descubiertos han de ser válidos, novedosos para el sistema (para el usuario siempre
que sea posible) y potencialmente útiles.

KDD nace como interfaz y se nutre de diferentes disciplinas:

• Estadística.
• Sistemas de información / bases de datos.
• Aprendizaje automático / IA.
• Visualización de datos.
• Computación paralela / distribuida.
• Interfaces de lenguaje natural a bases de datos.

KDD (Knowledge Discovery in Databases): Es el proceso de encontrar información y/o patrones


útiles en los datos.

Minería de Datos: es el uso de algoritmos para extraer información y/o patrones como parte del
proceso KDD.

1.1. Proceso KDD


 Formulación del problema: No todo es matemática y estadística, sino entender la
problemática a la que nos vamos a enfrentar y tener contexto para proponer soluciones
viables y reales, ya que me ha tocado ver propuestas absurdas. Es importante conocer las
propiedades, limitaciones y reglas del escenario en estudio, para posteriormente definir las
metas a alcanzar.
 Recopilación de datos: Del conjunto de datos recolectados y ya definidos los objetivos por
alcanzar, se deben elegir datos disponibles para realizar el estudio e integrarlos en uno solo
que puedan favorecer a llegar a alcanzar a los objetivos del análisis. Muchas veces esta
información puede encontrarse en una misma fuente (centralizado) o pueden estar
distribuidos.
- datos del subconjunto: el muestreo podría perjudicar si los datos están muy sesgados
- Selección de características: análisis de componentes principales, búsqueda heurística.
 Pre-procesamiento – limpieza: En esta etapa se determina la confiabilidad de la información,
es decir, realizar tareas que garanticen la utilidad de los datos. Para esto se hace la limpieza
de datos (tratamiento de datos perdidos o remover valores atípicos). Esto implica eliminar
variables o atributos con datos faltantes o eliminar información no útil para este tipo de
tareas como el texto (aunque puede utilizarse para hacer Minería de Texto, que es otro
asunto).
- limpieza de nombre / dirección, diferentes significados (anual, anual), duplicado
eliminación, suministrando valores perdidos
 Transformación: En esta etapa se mejora la calidad de los datos con transformaciones que
involucran ya sea reducción de dimensionalidad (disminuir la cantidad de variables del
conjunto de datos) o bien transformaciones como por ejemplo convertir los valores que son
números a categóricos (discretización).
- Mapear objetos complejos, por ejm. datos de series de tiempo a características por ejm.
frecuencia
 Elegir la tarea de minería: Fase en la que se refiere a elegir el paradigma apropiado de Minería
de Datos, ya sea la clasificación, regresión o agrupación, según los objetivos que se haya
planteado para la investigación (predicción o descripción), la primera ocupada para
encontrar un modelo que sea utilizada para casos futuros y desconocidos; mientras que la
segunda solo para observar su comportamiento.
 El método de minería: Posteriormente se procede a seleccionar la técnica o algoritmo, o
incluso más de uno para la búsqueda del patrón y obtener conocimiento. El meta-aprendizaje
se enfoca en explicar la razón por la que un algoritmo funciona mejor en determinadas
problemáticas, y para cada técnica existen diferentes posibilidades de cómo seleccionarlas.
Cada algoritmo tiene su propia esencia, su propia manera de trabajar y obtener los
resultados, por lo que es recomendable conocer las propiedades de aquellos candidatos a
utilizar y ver cual se ajusta mejor a los datos. En 2015 se publicó un artículo que intenta
abordar justamente este problema, realizando una comparación entre diferentes
clasificadores en distintas problemáticas.
 Aplicación del algoritmo: Por fin, una vez seleccionado las técnicas el paso siguiente es
aplicarlo a los datos ya seleccionados, limpiados y procesados. Es posible que la ejecución de
los algoritmos sean varias intentando ajustar los parámetros que optimicen los resultados.
Estos parámetros varían de acuerdo al método seleccionado.
 Evaluación de resultados:
Una vez aplicado los algoritmos al conjunto de datos, procedemos a evaluar los patrones que
se generaron y el rendimiento que se obtuvo para verificar que cumpla con las metas
planteadas en las primeras fases. Para realizar esta evaluación existe una técnica que se llama
Validación Cruzada (también abordado en el artículo anterior), el cual realiza una partición
de los datos dividiéndose en entrenamiento (que servirán para crear el modelo) y prueba
(que serán utilizados para ver que en verdad funciona el algoritmo y realiza su trabajo bien).
 Visualización: Si todos los pasos se siguen correctamente y los resultados de la evaluación se
satisfacen, la última etapa es simplemente aplicar el conocimiento encontrado al contexto y
comenzar a resolver sus problemáticas. Si de lo contrario, los resultados no son satisfactorios
entonces es necesario regresar a las anteriores etapas a realizar algún ajuste, analizando
desde la selección de los datos hasta en la etapa de evaluación.

Pasos del proceso de KDD (detallado)

1. Identificación de la meta:
- Definir problema
- Conocimientos previos relevantes y objetivos de aplicación.
2. Crear un conjunto de datos de destino: selección de datos
3. Pre-procesamiento de datos: (¡puede requerir un 60% -80% de esfuerzo!)
- Eliminación de ruidos o valores atípicos.
- Estrategias para manejar los campos de datos faltantes.
- la contabilidad de la información de secuencia de tiempo
4. Reducción y transformación de datos:
- Encontrar características útiles, dimensionalidad / reducción de variables, representación
invariante.
5. Minería de datos:
- Elección de funciones de minería de datos:
 Resumen, clasificación, regresión, asociación, agrupamiento
- Eligiendo el (los) algoritmo (s) de minería:
 ¿Qué modelos o parámetros?
- Búsqueda de patrones de interés.
6. Presentación y evaluación:
- Visualización, transformación, eliminación de patrones redundantes, etc.
7. Tomar acción:
- Incorporación al sistema de rendimiento.
- documentar
- informar a las partes interesadas
Ventajas del KDD

 El Data Mining descubre información que no se esperaba obtener.

Como muchos modelos diferentes son validados, algunos resultados inesperados tienden
a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de
factores entregan efectos inesperados que entregan valor a la compañía. (Pañales y
cerveza).

 Los Modelos Son Confiables.

El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego
las predicciones que se obtienen por el modelo son válidas y confiables.

 Los modelos se construyen de manera rápida.

La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El
modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el
mejor modelo es entregado al usuario.

 Te permite encontrar, atraer y retener a los clientes

Reduce el riesgo de perder clientes:ofrecer promociones especificas o productos especiales


para retenerlos.

 Mejora la relación con el cliente

La empresa puede mejorar la atención al cliente a partir de la información obtenida.

Permite ofrecer a tus clientes los productos o servicios que necesitan.

Áreas de Aplicación

En este punto se presentan las principales áreas y sectores empresariales en las que se puede
aplicar la minería de datos.

 Marketing
- Identificar patrones de compra de los clientes
- Segmentación de clientes
- Predecir respuestas a campañas de mailing
- Análisis de cestas de la compra
 Compañías de Seguros
- Análisis de procedimientos médicos solicitados conjuntamente.
- Predecir qué clientes compran nuevas pólizas.
- Identificar patrones de comportamiento para clientes con riesgo.
- Identificar comportamiento fraudulento.
 Banca
- Detectar patrones de uso fraudulento de tarjetas de crédito.
- Identificar clientes leales
- Predecir clientes con probabilidad de cambiar su afiliación.
- Determinar gasto en tarjeta de crédito por grupos.
- Encontrar correlaciones entre indicadores financieros.
- Identificar reglas de mercado de valores a partir de históricos
 Telecomunicaciones
En el sector de las telecomunicaciones se puede almacenar información interesante sobre
las llamadas realizadas, tal como el destino, la duración, la fecha,... en que se realiza la
llamada, por ejemplo para:

- Detección de fraude telefónico: Mediante por ejemplo el agrupamiento o clustering se


pueden detectar patrones en los datos que permitan detectar fraudes.
 Medicina
- Identificación de terapias médicas satisfactorias para diferentes enfermedades.
- Asociación de síntomas y clasificación diferencial de patologías.
- Estudio de factores (genéticos, precedentes, hábitos, alimenticios,...) de riesgo para la
salud en distintas patologías.
- Segmentación de pacientes para una atención más inteligente según su grupo.
- Estudios epidemiológicos, análisis de rendimientos de campañas de información,
prevención, sustitución de fármacos,...
- Identificación de terapias médicas y tratamientos erróneos para determinadas
enfermedades.
 Industria farmacéutica
- Bases de datos de dominio público conteniendo información sobre
- estructuras y propiedades de componentes químicos.
- Resultados de universidades y laboratorios publicadas en revistas técnicas.
- Datos generados en la realización de los experimentos.
- Datos propios de la empresa.
 Biología.

Con la finalización en los próximos años del Proyecto Genoma Humano y el almacenamiento
de toda la información que está generando en bases de datos accesibles por Internet, el
siguiente reto consiste en descubrir cómo funcionan nuestros genes y su influencia en la
salud. Existen nuevas tecnologías (chips de ADN, proteómica, genómica funcional,
variablidad genética individual) que están posibilitando el desarrollo de una “nueva biología”
que permite extraer conocimiento biomédicos a partir de bases de datos experimentales en
el entorno de un ordenador básicamente mediante técnicas de minería de datos y
visualización. Estos trabajos forman parte de los desarrollos de la Bioinformática.
Informatigrafia

https://sistemeduca.com/sistemas-kdd/ventajas-de-kdd/

http://elvex.ugr.es/doc/proyecto/cap1.pdf

http://oldemarrodriguez.com/yahoo_site_admin/assets/docs/Presentaci%C3%B3n_-
_Conceptos_B%C3%A1sicos.41132532.pdf

https://www.uio.no/studier/emner/matnat/ifi/INF5100/h14/teaching-material/inf5100-
kdd-datamining-2014.pdf

http://www.scielo.org.co/pdf/rib/v35n1/v35n1a9.pdf

http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/

También podría gustarte