0% encontró este documento útil (0 votos)
52 vistas3 páginas

Minería de Datos

La minería de datos es un proceso que extrae conocimiento de grandes bases de datos, combinando técnicas de estadística, inteligencia artificial y computación. Su objetivo es identificar patrones útiles y predecibles en los datos, lo que puede generar oportunidades de negocio, como la automatización de predicciones y el descubrimiento de modelos ocultos. El proceso incluye fases de filtrado de datos, selección de variables, extracción de conocimiento e interpretación y evaluación.

Cargado por

gabriela7007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
52 vistas3 páginas

Minería de Datos

La minería de datos es un proceso que extrae conocimiento de grandes bases de datos, combinando técnicas de estadística, inteligencia artificial y computación. Su objetivo es identificar patrones útiles y predecibles en los datos, lo que puede generar oportunidades de negocio, como la automatización de predicciones y el descubrimiento de modelos ocultos. El proceso incluye fases de filtrado de datos, selección de variables, extracción de conocimiento e interpretación y evaluación.

Cargado por

gabriela7007
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd

Minera de Datos Data Mining

Desde un punto de vista acadmico el trmino data mining es una etapa dentro de un
proceso mayor llamado extraccin de conocimiento en bases de datos, indistinta.
Lo que en verdad hace el data mining es reunir las ventajas de varias reas como la
Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
Una definicin tradicional es la siguiente: Un proceso no trivial de identificacin vlida,
novedosa, potencialmente til y entendible de patrones comprensibles que se
encuentran ocultos en los datos Durante el desarrollo de un proyecto de este tipo se
usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de
visualizacin de datos o de inteligencia artificial, principalmente.

Los Fundamentos del Data Mining

Las tcnicas de Data Mining son el resultado de un proceso de investigacin y


desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron
almacenados por primera vez en computadoras, y continu con mejoras en el acceso a
los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios
navegar a travs de los datos en tiempo real. Data Mining toma este proceso de
evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega
de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la
comunidad de negocios porque est soportado por tres tecnologas:

Recoleccin masiva de datos.


Potentes computadoras con multiprocesadores.
Algoritmos de Data Mining.

Principales caractersticas y objetivos de la Minera de Datos

Explorar los datos se encuentran en las bases de datos, como los almacenes de
datos, que algunas veces contienen informacin almacenada durante varios aos.

En algunos casos, los datos se consolidan en un almacn de datos y en


mercados de datos; en otros, se mantienen en servidores de Internet e
Intranet.

Las herramientas de la minera de datos se combinan fcilmente y pueden


analizarse y procesarse rpidamente.

La minera de datos produce cinco tipos de informacin:


Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronsticos.

En la minera de datos, se coleccionan los datos y se espera que de ellos


surjan hiptesis. Se busca que los datos describan o indiquen por qu son como son.
El Alcance de Data Mining

Dadasbases de datos de suficiente tamao y calidad, la tecnologa de Data Mining


puede generar nuevas oportunidades de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining


automatiza el proceso de encontrar informacin predecible en grandes
bases de datos. Preguntas que tradicionalmente requeran un intenso
anlisis manual, ahora pueden ser contestadas directa y rpidamente desde
los datos. Un tpico ejemplo de problema predecible es el marketing
apuntado a objetivos (targeted marketing). Data Mining usa datos en
mailing promocionales anteriores para identificar posibles objetivos para
maximizar los resultados de la inversin en futuros mailing. Otros problemas
predecibles incluyen pronsticos de problemas financieros futuros
y otras formas de incumplimiento, e identificar segmentos de poblacin
que probablemente respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos. Las


herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un slo paso. Otros problemas de descubrimiento
de modelos incluye detectar transacciones fraudulentas de
tarjetas de crditos e identificar datos anormales que pueden representar
errores de tipeado en la carga de datos.

Fases de un Proyecto de Minera de Datos

Los pasos a seguir para la realizacin de un proyecto de minera de datos son


siempre los mismos, independientemente de la tcnica especfica de extraccin
de conocimiento usada. En la sigiente figura 4.1 de la pagina 18 se ilustra las
Fases del Proyecto de MD.
El proceso de minera de datos pasa por las siguientes fases:

Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.

Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data
Warehouse...) nunca es el mismo, y la mayora de las veces no es posible ni
siquiera utilizar ningn algoritmo de minera sobre los datos en bruto.
Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no vlidos, desconocidos, segn las necesidades y el algoritmo
a usar), se obtienen muestras de los mismos (en busca de una mayor
velocidad de respuesta del proceso), o se reducen el nmero de valores posibles
(mediante redondeo, clustering)-

Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se tiene
Una gran cantidad de datos. La seleccin de caractersticas reduce el tamao
de los datos eligiendo las variables ms influyentes en el problema, sin
sacrificar la calidad del modelo de conocimiento obtenido del proceso
de minera.
Los mtodos para la seleccin de caractersticas son bsicamente dos:

Aquellos basados en la eleccin de los mejores atributos del problema,


Y aquellos que buscan variables independientes mediante tests de sensibilidad,
algoritmos de distancia o heursticos.

Algoritmos de Extraccin de Conocimiento


Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento,
que representa patrones de comportamiento observados en los valores de las variables
del problema o relaciones de asociacin entre dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos,
aunque generalmente cada tcnica obliga a un preprocesado diferente de los
datos.

Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando
que las conclusiones que arroja son vlidas y suficientemente satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas
tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor
al problema.

Aplicaciones de Uso

Deteccin de fraudes en las tarjetas de crdito.

Descubriendo el porqu de la desercin de clientes de una compaa


operadora de telefona mvil.

Hbitos de compra en supermercados.

También podría gustarte