0% encontró este documento útil (0 votos)
125 vistas7 páginas

Etapas del Proceso de Data Mining

Este documento resume los conceptos clave de data mining. Define data mining como el proceso de descubrir patrones ocultos en grandes volúmenes de datos para resolver problemas de negocio. Explica que data mining involucra etapas como explorar y preprocesar datos, desarrollar modelos, e implementar la tecnología. También destaca retos como contar con el equipo, metodología, arquitectura y tecnología adecuadas para lograr implementaciones exitosas de data mining en las empresas.
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
125 vistas7 páginas

Etapas del Proceso de Data Mining

Este documento resume los conceptos clave de data mining. Define data mining como el proceso de descubrir patrones ocultos en grandes volúmenes de datos para resolver problemas de negocio. Explica que data mining involucra etapas como explorar y preprocesar datos, desarrollar modelos, e implementar la tecnología. También destaca retos como contar con el equipo, metodología, arquitectura y tecnología adecuadas para lograr implementaciones exitosas de data mining en las empresas.
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOC, PDF, TXT o lee en línea desde Scribd

Programa de Maestra en Administracin MBATP 52 Grupo 3

Periodo acadmico : Asignatura Informacin Profesor Trabajo Integrante Cdigo : : : :

2012 II Gerencia en Tecnologas de la

Genaro Matute Meja, Ph.D. Ensayo Critico No1 : Data Mining Chau Torres, Edwin 1110819

Lima, 13 de Octubre de 2012

DATA MINING
I. Introduccin.

Muchos de nosotros hemos escuchado sobre las recompensas que se pueden lograr con la implementacin de la data mining en las empresas. Pero muy poco ha sido escrito con el propsito de explicar los retos que enfrentan muchas organizaciones de Tecnologa de Informacin (TI) en su intento de integracin del data mining con sus operaciones de Inteligencia de Negocios. Este articulo explora la data mining desde la perspectiva de las operaciones de TI, iniciando con un breve resumen de la tecnologa de la data mining, los retos tecnolgicos, y las soluciones para implementar exitosamente los proyectos de data mining en las empresas.
II. Definicin de Data Mining.

Es una tecnologa potente que permite convertir informacin o data detallada en inteligencia competitiva que los negocios pueden usar proactivamente para predecir las futuras tendencias y comportamientos de los negocios. Es en sntesis el proceso de re-descubrir o interpretar anticipadamente patrones desconocidos en informacin para dar solucionar a problemas de negocios. Es un proceso iterativo donde cada ciclo posterior refina el set de resultados precedente. Este puede ser un proceso complejo, pero existen en la actualidad herramientas disponibles para la navegacin de las etapas del proceso del data mining. Las Organizaciones de TI deben ser capaces de proveer un entorno capaz de atender los siguientes retos:

Explorar y pre-procesar grandes volmenes de informacin Capacidad de procesamiento suficiente para analizar eficientemente mltiples variables(columnas) y filas en una manera rpida Integrar los resultados de la data mining en los procesos de negocios Crear un entorno extenso, dcil y manejable para la data mining.

III.Origen del Data Mining y Rol en el Mundo de Los Negocios Actual Desde los mediados de la dcada de los 80s, la data mining ha sido muy efectiva en la seleccin y aplicacin de diversas situaciones como: diagnsticos mdicos, investigacin cientfica, determinacin de perfiles de conductas. En los ltimos 10 aos, la data mining ha recorrido desde las esferas cientficas y acadmicas hacia mundo de los negocios donde esta agrega una nueva dimensin de anlisis predictivo.

IV. Aporte del Data Mining a Los Negocios Los negocios, por mucho tiempo, se han basado en reportes y en herramientas de solicitud de datos a demanda para encontrar informacin relevante de su informacin o data. Sin embargo, a medida que los volmenes de informacin se incrementa, la tarea de encontrar informacin valiosa puede ser intimidante . La Data Mining fue diseada para clasificar informacin histrica detallada con el objeto de identificar patrones ocultos que no son obvios a las herramientas de bsqueda regulares. Muchos de estos patrones ocultos revelan inteligencia que puede ser integrada a los procesos de negocios para poder implementar capacidades de prediccin que puedan sustentar la toma de decisiones de estrategia de negocios. La Data Mining convierte a las aplicaciones analticas de negocios, como el Customer Relationship Management (CRM) ms eficaces o inteligentes, ya que les provee de Insight que va ms all del conocimiento lgico. V. Forma de Operacin del Data Mining La Data Mining potencia la sinergia entre la inteligencia artificial con las tcnicas estadsticas para la creacin de modelos. Estos modelos son diseados inicialmente para situaciones donde el resultado es conocido. Luego, estos son aplicados a otras situaciones donde el resultado es desconocido. Los problemas de negocios que adoptan a la Data Mining son de naturaleza predictiva y descriptiva. Los modelos predictivos son utilizados para predecir un resultado, definido este como variables dependiente o variable objetivo, basada en la valoracin de otras variables en el set de datos. Las tcnicas predictivas construyen modelos basados en un set de datos de entrenamiento con un resultado conocido. El algoritmo luego analiza los valores de todas las variables ingresadas e identifica cuales variables son relevantes como variables predictoras para el resultado deseado o buscado. En contraste con los modelos predictivos, los modelos descriptivos no predicen valores basados en resultados conocidos, pero si describen un patrn particular que no tiene resultado conocido. Algunas tcnicas conocidas son la visualizacin de data donde grandes volmenes de informacin son reducidas a una fotografa que puede ser fcilmente comprendida.

VI. Pasos de la Data Mining El Proceso de la Data Mining no es lineal, pero si un proceso iterativo donde se puede enlazar hacia atrs (loop back) la fase previa. Este proceso est compuesto de 04 etapas:

Definicin de la problemtica de negocios Exploracin y pre-procesamiento de la data Desarrollo del Modelo de Data Implementacin de la Tecnologa. Aunque cada etapa es importante, la mayor parte de tiempo es usualmente destinada en las fases de exploracin y pre-procesamiento de la data. Un Warehouse de data debidamente estructurado, puede reducir significativamente las dificultades generadas en esta etapa. Un Warehouse de data provee los cimientos apropiados para la data mining ya que remueve muchos elementos de redundancia y tambin el sistema de gerencia de problemas, lo que permite a las personas a enfocarse en el anlisis. VII. Retos de la Data Mining.

Muchos negocios tienen problemas en transformar la data de sus proyectos de data mining en resultados relevantes. Para una implementacin de data mining sea exitosa, se requieren de los siguientes elementos: el equipo apropiado, la metodologa apropiada, la arquitectura apropiada y la tecnologa apropiada.
1. El Equipo Correcto:

El cual debe estar compuesto por expertos en las arenas de negocios, soporte de TI y Modeladores Analticos o Data Miners.
2. La Metodologa Correcta

El presente artculo desarrolla la metodologa empleada por Teradata, empresa americana que vende software de bases de datos y aplicaciones analticas, la cual se enfoca principalmente en las actividades que repercuten en el data warehouse: Definicin de la Problemtica de Negocios.- Consiste en describir la problemtica en trminos operacionales de tal forma que se pueda determinar la disponibilidad de la data inicial y el enfoque analtico a emplearse. Preparacin de la Arquitectura y Tecnologa.-Consiste en entender los requerimientos del desarrollo e implementacin de modelos analticos Preparacin de la Data.- Consiste en la recopilacin de data de diferentes fuentes y en la exploracin de la informacin, para luego segmentarla, aislarla para la preparacin de un modelo en particular.

Desarrollo del Modelo, Prueba y Validacin.- Consiste en la construccin del modelo. La construccin de un modelo requiere por lo menos los siguientes pasos: entrenamiento, testing y finalmente validacin. La validacin del modelo es el proceso mediante el cual el modelador analtico intenta establecer y maximizar un modelo generalizado mas all del set de datos mediante el cual fue creado el modelo. Implementacin y Entrega del Conocimiento.-Consisten en la derivacin y la implementacin de los modelos. La inteligencia generada a partir del modelo puede ser integrada a un CRM o aplicacin analtica para facilitar acceso a los resultados al usuario de negocios. Transferencia de Conocimiento.- Consiste en la transferencia, mentoring y capacitacin de los modelos de inteligencia adquiridos. Precisamente es el mentoring y la continua capacitacin la cual provee al equipo de data mining con el modelamiento necesario y el know-how de procesos para interpretar los resultados, mantener el entorno de modelamiento y monitorear el modelo analtico. 3. La Arquitectura Correcta Existen diferentes arquitecturas de data mining actualmente empleadas en el data mining. Estas son: Data Marts Independientes Distribuidos, Data Warehouse con Data Marts (Analticos) dependientes y Data Mining y warehouse Centralizado. Data Marts Independientes Distribuidos.- El mtodo de las fuentes distribuidas con Data Marts analticos requiere que la informacin sea extrada de fuentes mltiples hacia servidores analticos. La informacin recopilada de varias fuentes debe ser convertida a un formato comn y consistente para luego ser fusionada en un data mart analtico. Data Warehouse con Data Marts dependientes (Analiticos).- El uso de un warehouse de data simplifica el manejo de la informacin ya que esta ya ha sido recopilada, filtrada y transformada para satisfacer los criterios de informacin del warehouse. Data Mining y Warehouse Centralizado.- Esta arquitectura es la que sea emplea con mayor frecuencia debido a las limitaciones de bases de datos y herramientas de la data mining.

4. La Tecnologa Correcta La base para una tecnologa correcta es el data warehouse apropiado. Algunas compaas estn intentando emplear data warehousing con un data base que fue fuera diseado para OLTP- procesamiento operacional de transacciones de alta velocidad.

Las funciones realizadas en OLTP adicin, eliminacin, modificacin o funciones de nivel de filas son enteramente diferentes del anlisis grandes volmenes de data y requieren diversas capacidades de base de datos. A medida que se requiere el procesamiento de volmenes grandes de data, el I/O requerido, crea problemas de ancho de banda de la red. El in-data mining elimina los problemas de I/O al transferir las funcionas a la data en contraste a tranferir la data a las funciones. La tecnologa correcta tambin incluye a las herramientas que proveen el set de funciones de aprendizaje y estadsticas que junto con tcnicas de visualizacin y pre-procesamiento de datos. Debido a que gran parte del proceso de la data mining se destina a las etapas de exploracin y condicionamiento de la data, se necesitan herramientas que faciliten la exploracin, visualizacin, transformacin y manejo de la data. VIII. Resumen y Conclusiones Son las tecnologas que ofrecen un insight valioso y capacidades predictivas para canalizar el crecimiento de los negocios y mejorar la tasa de su inversin, el prximo paso luego que es implementado el data warehouse. La Data Mining es la tecnologa apropiada para potenciar e intensificar al CRM y otras aplicaciones analticas mediante la inclusin de inteligencia en la forma de predicciones, scores, descripciones y perfiles (punto fuerte de data mining). Gran cantidad de informacin o datos histricos acerca de eventos de negocios en el pasado puede ser analizada y empleada para predecir lo que pasara en el futuro. Data Mining es una de las tecnologas de inteligencia de negocios con mayor crecimiento porque su inversin se justifica en valor monetario. En resumen, se necesita de una infraestructura potente para desarrollar soluciones analticas a ser aplicadas en los negocios para la toma de decisiones estratgicas. La cantidad de informacin siendo creada registrada y el monto de transacciones de informacin pueden generar cuellos de botella en el flujo de la toma de decisiones. Se requiere de un anlisis preciso, rpido y sofisticado para mantener las ventajas competitivas de los negocios. Las herramientas tradiciones como reportes y tcnicas de OLAP proveen las capacidades para navegar en medio de warehouses de datos masivos pero no proveen el insight requerido para mantenerse por encima de la competencia.
Referencias:
MATUTE, Genaro; en: notas de clase T.P. MATC 52-3 sesin 04, Universidad Esan. Zaima, A. y Kashner, J. (2004). Data mining primer for the data warehouse profesional Dayton: NCR Corporation.

Watson, Recent Development in Data Warehousing

También podría gustarte