0% encontró este documento útil (0 votos)
76 vistas7 páginas

Minería de Datos Versus KDD

El documento compara y contrasta varios conceptos relacionados con la minería de datos y el descubrimiento de conocimiento en bases de datos (KDD). Explica que KDD es el proceso general que incluye la minería de datos, la cual utiliza algoritmos para extraer patrones de los datos como parte del proceso KDD. También distingue la minería de datos de conceptos como la estadística, el aprendizaje automático, el aprendizaje estadístico y los almacenes de datos. Finalmente, resume los diferentes métodos y tareas util
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
76 vistas7 páginas

Minería de Datos Versus KDD

El documento compara y contrasta varios conceptos relacionados con la minería de datos y el descubrimiento de conocimiento en bases de datos (KDD). Explica que KDD es el proceso general que incluye la minería de datos, la cual utiliza algoritmos para extraer patrones de los datos como parte del proceso KDD. También distingue la minería de datos de conceptos como la estadística, el aprendizaje automático, el aprendizaje estadístico y los almacenes de datos. Finalmente, resume los diferentes métodos y tareas util
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

MINERÍA DE DATOS VERSUS KDD (KNOWLEDGE DISCOVERY IN DATABASES)

KDD (Knowledge Discovery in Databases)


Es el proceso de encontrar información y/o patrones útiles en los datos y abarca:
• Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas.
• Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera
operativa toda la información recogida.
• Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos,
para discernir qué aspectos puede interesar que sean estudiados.
• Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto
una criba o fusión horizontal (filas) como vertical (atributos).
• Seleccionar y aplicar el método de minería de datos apropiado.
• Evaluación, interpretación, transformación y representación de los patrones extraídos.
• Difusión y uso del nuevo conocimiento.
Minería de datos:
Es el uso de algoritmos para extraer información y/o patrones como parte del proceso KDD, la minería de
datos es el corazón del proceso KDD.
Minería de datos versus Estadística
La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población,
mientras que la minería de datos pretende buscar información útil usando toda la base de datos.
La estadística en la mayoría de los casos supone que los datos se comportan de acuerdo a ciertas
distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc), mientras que en la minería de
datos se usan técnicas mucho más exploratorias que vienen de la inteligencia artificial o del "analyse des
Données".
Minería de datos versus Análisis de datos
Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgió del
matrimonio entre la informática y la estadística: El análisis de datos conocido como "Analyse des Données".
Esta nueva manera de analizar los datos con un objetivo desicional usa mucho más la informática y los
métodos analíticos.
A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con
volúmenes de datos tan grandes.
Minería de datos versus Bodegas de datos
Una bodega de datos es un almacén de datos que contiene algunos datos operacionales, datos agregados,
datos históricos, datos evolutivos y posiblemente aquellos datos externos a la organización pero que tienen
una posible relación con las actividades de esta.
Estos datos se depositan en una o más bases de datos relacionales y son accesibles a todas las
aplicaciones orientadas a la toma de decisiones.
Evidentemente bodegas de datos y minería de datos con cosas muy diferentes, una bodega de datos es
usualmente apenas el punto de partida de la minería de datos, podría decirse que ambos, las bodegas de
datos y la minería de datos son parta del proceso KD
Minería de datos versus Machine Learning
El "Machine Learning" es un área de la inteligencia artificial que trata sobre como escribir programas que
puedan aprender, El enfoque del "Machine Learning" es la eficiencia de los algoritmos, mientas que el
enfoque de la minería de datos es la interpretación de los resultados.
Ambas, se dividen en dos grandes ramas, Aprendizaje supervisado y aprendizaje no supervisado
Minería de datos versus Statistical Learning
"Statistical Learning": es una corriente que nace en la Universidad de Stanford, tiene un enfoque mucho
más orientado a la estadística que a las bases de datos, que es el caso de la minería de datos.
Unos de los temas preferidos de este enfoque es la regresión y los métodos de reducción de la dimensión
que no son tan frecuentes en minería de datos.
¿Qué problemas aborda la minería de datos?
Cualquier problema para el que existan datos históricos almacenados es un problema susceptible de ser
tratado mediante técnicas de Minerı́a de Datos. Sin pretender ser exhaustivos la siguiente es una lista
ilustrativa:
Búsqueda de lo inesperado por descripción de la realidad multivariante.
Un principio clásico de la Estadística, el principio de la parsimonia, ya no es ahora valido (si bien siempre
serán preferibles los modelos simples). Para describir un fenómeno cuantas más variables tengamos mejor,
más ricas, más globales y más coherentes serán las descripciones y más fácil será detectar lo inesperado,
esto es, aquello que no habíamos previsto y que resulta valioso para entender mejor el comportamiento de
algún grupo de individuos, lo cual se ve favorecido por el hecho de trabajar con muestras grandes.
Las muestras aleatorias son suficientes para describir la regularidad estadística global, pero no para
detectar comportamientos particulares de sub grupos.
Búsqueda de asociaciones.
Un cierto suceso, ¿está asociado a otro suceso?, ¿podemos inferir que determinados sucesos ocurren
simultáneamente más de lo que sería esperable si fuesen independientes?, ¿es posible sugerir un producto,
sabiendo que otro ha sido adquirido?
Definición de tipologías.
Los consumidores son, a efectos prácticos, infinitos, pero los tipos de consumidores distintos son un número
mucho más pequeño. Detectar estos tipos distintos, su perfil de compra y proyectarlos sobre toda la
población, es una operación imprescindible a la hora de programar una política de marketing. Por otro lado,
las tipologías no tienen que ser necesariamente de consumo, pueden ser de opiniones, valores, condiciones
de vida, etc.
Detección de ciclos temporales.
Todo consumidor sigue un ciclo de necesidades que ocasionan actos de compra distintos a lo largo de su
vida. Detectar los diferentes ciclos y la fase donde se sitúa cada consumidor ayudará a crear complicidades
y adecuar la oferta de productos a las necesidades y crear fidelización.
Predicción.
A menudo deberemos efectuar predicciones: ¿cuál es la probabilidad de baja de un cliente?, ¿cuál es el
precio de una vivienda concreta?, ¿lloverá mañana? Estas y muchas más son preguntas que deberemos
responder, para ello construiremos un modelo a partir de los datos históricos. Si la variable de respuesta
es continua ([Link] rentabilidad de un cliente) diremos que se trata de un problema de regresión, mientras
que si la variable de respuesta es categórica (p.e. la compra o no de un producto) diremos que se trata de
un problema de clasificación.
Tareas de la minería de datos
Podemos clasificar las tareas de la minería de datos en dos grandes grupos.
Descriptivas
• OLAP (visualización)
• Clustering
• Métodos factoriales como ACP, AFC.
Predictivas
• Series de tiempo.
• Análisis discriminante.
• Regresión.
• Árboles de decisión.
MÉTODOS DESCRIPTIVOS
Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de
modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en
gráficos que permiten detectar tanto las características sobresalientes como las características
inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden
caracterizar el conjunto con la menor distorsión o perdida de información posible.
Explorar los datos, debe ser la primera etapa de todo análisis de datos. ¿Por qué no analizarlos
directamente? En primer lugar, porque las computadoras no son demasiado hábiles (sólo son rápidas),
hacen aquello para lo que están programadas y actúan sobre los datos que les ofrecemos. Datos erróneos
o inesperados serán procesados de modo inapropiado y ni usted, ni la computadora se darán cuenta a
menos que realice previamente un análisis exploratorio de los datos.
Clustering
El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos
o no, los grupos se forman basado en la similaridad de los datos o individuos en ciertas variables. Como
los grupos no son dados a priori el experto debe dar una interpretación a los grupos que se forman.
Métodos:
• Clasificación Jerárquica (grupos disjuntos).
• Nubes Dinámicas (grupos disjuntos).
• Clasificación Piramidal (grupos NO disjuntos)
Descubrimiento de factores
El análisis factorial es un nombre genérico que se da a una clase de métodos multivariantes cuyo propósito
principal es encontrar estructuras subyacentes en una tabla de datos (factores ocultos).
Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones
(correlaciones) entre un gran número de variables con la definición de una seria de dimensiones
subyacentes comunes, conocidas como factores.
Metodos:
• Análisis de Componentes Principales (ACP).
• Análisis Factorial de Correspondencias simples y múltiples (AFC).
• Análisis Canónico (AC).
• Análisis Discriminante (AD).
Descubrimiento de secuencias
Secuential analysis es usado para descubrir secuencias de patrones en los datos, estos patrones son
similares a los encontrados con reglas de asociación, pero talvez las relaciones son basadas en tiempo.
Métodos:
• Redes neuronales.
• Series de tiempo
Asociación o análisis de afinidad
Conocido como "link analysis" se refiere a encontrar relaciones no evidentes en los datos.
Métodos:
• Reglas de asociación
• Análisis de correlación y de causalidad
Series de tiempo
Una serie de tiempo corresponden a un conjunto de observaciones hechas respecto a una variable en
momentos equidistantes en el tiempo, pasos:
• Xt: Seria de tiempo
• Corregir errores sistemáticos
• Transformaciones matemáticas
• Xt = Tendencia + Estacionalidad + Ciclos + Et.
• Para Et (si no es ruido blanco)
• Elegir el modelo (Box-jenkings)
o ARMA(p,q)(AutoRegressive Moving Average)
o ARIMA(p,d,q)(AutoRegressive-Integrated)
o Estimar parámetros.
• Pronóstico.
Sumarización
Los métodos de sumarización asignan los datos a conjuntos (individuos de segundo orden) que tiene
asociadas descripciones, estos métodos permiten extraer o derivar datos representativos de una base de
datos y permite el análisis de conceptos.
Métodos:
• Análisis de datos simbólicos.
• Lógica difusa.
• Interval Analysis
MÉTODOS PREDICTIVOS
Árboles de decisión
Permiten obtener de forma visual las reglas de decisión bajo las cuales operan los consumidores, a partir
de datos históricos almacenados. Su principal ventaja es la facilidad de interpretación.
Clasificación(discriminación)
Consiste en mapear o asociar datos o grupos predefinidos, encontrar modelos que describen y distinguen
clases o conceptos para futuras predicciones, Un ejemplo de esto es el Credit Scoring.
Algunos métodos son:
• Análisis discriminente
• Arboles de decisión
• Reglas de clasificación
• Redes neuronales
Regresión
Se usa una regresión para predecir los valores ausentes de una variable basándose en su relación con
otras variables de la tabla de datos.
Hay regresión lineal, no lineal, logística, logarítmica, univariada, multivariada, entre otras.
regresión lineal simple
Sobre qué tipos de datos trabaja la minería de datos
• Bases de datos relacionales
• Bodegas de datos
• Bases de datos transaccionales
• Bases de datos orientadas a objetos y simbólicas
• Bases de datos espaciales Sistemas de información geografica GIS
• Series cronologicas de datos y los datos temporales.
• Bases de datos de texto
• Bases de datos multimediales.
• www(internet)
Ciclo de un proyecto de minería de datos
• Aprender sobre el negocio
• Recolectar los datos. Usualmente las compañias tienen muchas bases de datos que deber ser
centralizadas.
• Limpieza y transformación de datos (mucho esfuerzo)
• Definir la meta del proyecto y así encontrar el modelo adecuado.
• Escoger los algoritmos que permitan optimizar el modelo.
• Generar reportes
• Generar predicciones
• Aplicaciones de resultados en el negocio
• Actualizaciones de los modelos (calibración constante de los modelos
ESTANDARES EN MINERIA DE DATOS
En minería de datos estamos como en bases de datos hace 20 años, es decir,se están haciendo esfuerzos
por definir estándares.
XML for Analysis
Es otro estándar de la industria y está a cargo del "XML/A Council".Así surge el lenguaje de consultas
"query lenguage data mining extensions" o DMX que permite consultas basadas en XML a los servidores
de mineria de datos.
SQL MM
SQL / multimedia for data mining fue propuesto por IBM.
Java data mining API
Es un paquete Java para minería de datos propuesto por ORACLE, el objetivo es permitir a las aplicaciones
Java como motores de minería de datos.
PMML,Crisp-DM,CMW(extension de uml) y otros
CROSS INDUSTRY STANDAR PROCESS FOR DATA MINING
• No tiene dueño
• Aplicación / Industria neutral
• Se centra en cuestiones de negocios
• Así como en el análisis técnico y métodos
¿Por qué debería ser un proceso estándar?
El proceso de minería de datos debe ser confiable y repetible para persona con escasos conocimientos de
minería de datos
MINERÍA DE DATOS Y "BUSINNES INTELLIGENCE"
La minería de datos es una herramienta al servicio de la toma de decisiones emprezariales, el proceso de
la toma de una decisión asistida por minería de datos sigue la siguiente secuencia:
DBA
• Origan de datos (Papel, archivos, proveedores de información, sistemas de bases de datos)
• Bodegas de datos/Mercados de datos, OLAP, MDA.
• Exploración de datos (Análisis estadístico, consultas e informes)
Analista de datos
• Minería de datos (Descubrimiento de información)
Analista de negocios
• Presentación de datos (Técnicas de visualización)
Usuario final
• Toma de decisiones
CONTESTAR LAS SIGUIENTES PREGUNTAS
1. ¿Qué es KDD (Descubrimiento de conocimiento en Base de Datos y cuáles son sus características
principales
2. ¿Qué necesidad imperiosa exige a las empresas a usar minería de datos
3. ¿Qué conlleva descubrir conocimiento o patrones de comportamiento útiles en los datos?
4. ¿Cuándo un patrón de comportamiento es útil e importante, que ofrece, qué significa?
5. ¿Qué finalidad tienen las herramientas de minería de datos?
6. Mencione algunas áreas de aplicación de la minería de datos mayormente importantes
7. Mencione que técnicas conoce y se incorporan a la minería de datos
8. ¿Cuál es la categorización de los métodos de minería de datos
9. En detalle explique ¿qué se realiza en el pre-procesamiento de los datos?
10. Se recomienda que el proceso de KDD sobre una mina de datos se realice ¿Cuántas veces?
11. Mencione las etapas de la metodología de descubrimiento de conocimiento sugerida por Fayyad
(Fayyad en 1996 define el Knowledge Discovery from Databases, también conocido como KDD)

También podría gustarte