UNIVERSIDAD LAICA “ELOY ALFARO” DE MANABÍ
EXTENSIÓN EL CARMEN
FACULTAD DE CIENCIAS INFORMÁTICAS
ESTUDIANTE:
ALVARADO BUENAVENTURA LUIS DAVID
MUÑOZ ANZULES KLEBER RONALDO
RODRÍGUEZ ZAMBRANO CARMEN JULIANA
MATERIA:
INTELIGENCIA DE NEGOCIOS
DOCENTE:
SORAIDA ZAMBRANO
PERIODO
2020 – 1
INTRODUCCIÓN
En la actualidad las grandes organizaciones se administran con el apoyo de
sistemas de gestión que manejan gran cantidad de información, una información
que puede tomar forma de reglas, asociaciones o patrones, aquellos datos que son
valorados en la toma de decisiones de un negocio.
Data Mining conjunto de métodos estadísticos que proporcionan información en
forma de patrones, cuando se dispone de una gran cantidad de datos. La data
mining analiza información contenida en una base de datos de forma masiva, de allí
se extraen relaciones, patrones de comportamiento, tendencias, ciclos estacionales,
anomalías entre otros elementos, sin tener en cuenta el significado de los datos que
se analizan, sin temor a colapsos o problemas con la información.
Metodología CRISP-DM es actualmente la más utilizada en los proyectos de minería
de datos, el CRISP-DM está estructurado en 6 fases: compresión del negocio,
comprensión de los datos, preparación de los datos, modelado, evaluación y
despliegue, las cuales permiten la organización y desarrollo de un proyecto de data
mining, la sucesión de las fases no tiene que ser necesariamente ordenada, por lo
que son bidireccionales, se puede volver a una fase anterior para poder revisarla.
1. DATA MINING
ORIGEN DEL DATA MINING
La acumulación progresiva de grandes masas de datos provenientes de fuentes
diversas, la gran capacidad de procesamiento proporcionada por la revolución
informática y la necesidad de desarrollar ventajas competitivas, han dado origen a
una actividad llamada Inteligencia de Negocios o BI (Business Intelligence), que
consiste en conjunto de protocolos y recursos destinados a la creación de
conocimiento mediante el análisis de datos existentes dentro y fuera de una
empresa (Palma, 2009).
El compromiso distintivo de un área de Inteligencia de Negocios, Business
Intelligence, Marketing Intelligence, Insights Department u otro nombre sugerente,
es explotar los datos de una empresa para contribuir a la visión y toma de decisiones
a corto y largo plazo, en un ambiente de competencia (Palma, 2009).
Se usan datos de la propia compañía, información del entorno competitivo, e
información del entorno macroeconómico, en tres momentos: pasado, presente y
futuro. Según la profundidad y complejidad de la explotación de la información se
pueden identificar tres tipos de resultados:
Explotación descriptiva que nos dice cómo son las cosas;
Explotación explicativa que identifica por qué las cosas son como son; y
Explotación de pronóstico, que nos dice cómo serán las cosas en un futuro
condicionado.
Hacia los noventa la inteligencia de negocios surgió como una actividad
estrechamente vinculada con un tipo de software especializado en la explotación de
datos, cuidadosamente desarrollado para colaborar con la inteligencia de negocios
en el análisis y la presentación de la información (Palma, 2009).
Uno de los primeros logros fue el surgimiento de tablas con resúmenes ejecutivos
visuales con la información de la marcha de la empresa. Estos resúmenes permiten
una comprensión rápida y global de las condiciones del negocio mediante métricas
e indicadores de desempeño clave (Palma, 2009).
¿CÓMO SURGE EL DATA MINING?
Data Mining surge como una nueva actividad propiciada por la revolución
informática y la progresiva profesionalización del análisis computacional de datos.
Vamos a pasos agigantados hacia una red de conectividad personal móvil total y
permanente, acompañada de un comercio que enriquece sus conceptos de la mano
del Data Mining. La informática ha producido un proceso de transformación tan
vasto en la sociedad humana que aún no es posible comprender las posibilidades
de sus límites en progresiva expansión. En estas circunstancias de asombro y
cambio permanente, nos asomamos al amanecer del siglo veintiuno (Palma, 2009).
Figura 1. Introducción a la minería de datos
¿QUÉ ES DATA MINING?
Según (Palma, 2009) el data mining, “es un conjunto de metodologías estadísticas
y computacionales que, junto a un enfoque desde las ciencias de la conducta,
permite el análisis de datos y la elaboración de modelos matemáticos descriptivos
y predictivos de la conducta del consumidor”.
DESCUBRIENDO INFORMACIÓN OCULTA DATA MINING
La extracción de información oculta y predecible de grandes bases de datos, es una
poderosa tecnología nueva con gran potencial para ayudar a las compañías a
concentrarse en la información más importante de sus Bases de Información (Data
Warehouse). Las herramientas de Data Mining predicen futuras tendencias y
comportamientos, permitiendo en los negocios tomar decisiones proactivas y
conducidas por un conocimiento acabado de la información (knowledge-driven). Los
análisis prospectivos automatizados ofrecidos por un producto así van más allá de
los eventos pasados provistos por herramientas retrospectivas típicas de sistemas
de soporte de decisión (Presser Carne, 2009).
Las herramientas de Data Mining pueden responder a preguntas de negocios que
tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los
cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas
herramientas exploran las bases de datos en busca de patrones ocultos,
encontrando información predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas (Presser Carne, 2009).
Figura 2. Extracción del conocimiento
Muchas compañías ya colectan y refinan cantidades masivas de datos. Las técnicas
de Data Mining pueden ser implementadas rápidamente en plataformas ya
existentes de software y hardware para acrecentar el valor de las fuentes de
información existentes y pueden ser integradas con nuevos productos y sistemas
pues son traídas en línea (on-line). Una vez que las herramientas de Data Mining
fueron implementadas en computadoras cliente - servidor de alta performance o de
procesamiento paralelo, pueden analizar bases de datos masivas para brindar
respuesta a preguntas tales como, "¿Cuáles clientes tienen más probabilidad de
responder al próximo mailing promocional, y por qué? y presentar los resultados en
formas de tablas, con gráficos, reportes, texto, hipertexto, etc. (Presser Carne,
2009).
LOS FUNDAMENTOS DEL DATA MINING
Las técnicas de Data Mining son el resultado de un largo proceso de investigación
y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continuó con mejoras en
el acceso a los datos, y más recientemente con tecnologías generadas para permitir
a los usuarios navegar a través de los datos en tiempo real (Presser Carne, 2009).
Data Mining toma este proceso de evolución más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva.
Data Mining está listo para su aplicación en la comunidad de negocios porque está
soportado por tres tecnologías que ya están suficientemente maduras:
Recolección masiva de datos
Potentes computadoras con multiprocesadores
Algoritmos de Data Mining
EL ALCANCE DE DATA MINING
El nombre de Data Mining deriva de las similitudes entre buscar valiosa información
de negocios en grandes bases de datos, por ej.: encontrar información de la venta
de un producto entre grandes montos de Gigabytes almacenados, y minar una
montaña para encontrar una veta de metales valiosos. Ambos procesos requieren
examinar una inmensa cantidad de material, o investigar inteligentemente hasta
encontrar exactamente donde residen los valores (Presser Carne, 2009).
Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining
puede generar nuevas oportunidades de negocios al proveer estas capacidades:
Predicción automatizada de tendencias y comportamientos
Data Mining automatiza el proceso de encontrar información predecible en grandes
bases de datos. Preguntas que tradicionalmente requerían un intenso análisis
manual, ahora pueden ser contestadas directa y rápidamente desde los datos. “Un
típico ejemplo de problema predecible es el marketing apuntado a objetivos
(targeted marketing”). Data Mining usa datos en mailing promocionales anteriores
para identificar posibles objetivos para maximizar los resultados de la inversión en
futuros mailing. Otros problemas predecibles incluyen pronósticos de problemas
financieros futuros y otras formas de incumplimiento, e identificar segmentos de
población que probablemente respondan similarmente a eventos dados (Presser
Carne, 2009).
Descubrimiento automatizado de modelos previamente desconocidos
Las herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un sólo paso. Otros problemas de descubrimiento de
modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e
identificar datos anormales que pueden representar errores de tipeado en la carga
de datos (Presser Carne, 2009).
Las bases de datos pueden ser grandes tanto en profundidad como en ancho:
Más columnas. Los analistas muchas veces deben limitar el número de
variables a examinar cuando realizan análisis manuales debido a limitaciones
de tiempo. Sin embargo, variables que son descartadas porque parecen sin
importancia pueden proveer información acerca de modelos desconocidos.
Un Data Mining de alto rendimiento permite a los usuarios explorar toda la
base de datos, sin preseleccionar un subconjunto de variables (Presser
Carne, 2009).
Más filas. Muestras mayores producen menos errores de estimación y
desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero
importantes segmentos de población.
De acuerdo a (Presser Carne, 2009) “Las técnicas más comúnmente usadas en
Data Mining son”:
Redes neuronales artificiales: modelos predecibles no-lineales que
aprenden a través del entrenamiento y semejan la estructura de una red
neuronal biológica.
Arboles de decisión: estructuras de forma de árbol que representan
conjuntos de decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Métodos específicos de árboles de
decisión incluyen Arboles de Clasificación y Regresión (CART: Classification
And Regression Tree) y Detección de Interacción Automática de Chi
Cuadrado (CHAI: Chi Square Automatic Interaction Detection).
Algoritmos genéticos: técnicas de optimización que usan procesos tales
como combinaciones genéticas, mutaciones y selección natural en un diseño
basado en los conceptos de evolución.
Método del vecino más cercano: una técnica que clasifica cada registro en
un conjunto de datos basado en una combinación de las clases del/de los k
registro (s) más similar/es a él en un conjunto de datos históricos (donde k
1). t Algunas veces se llama la técnica del vecino k -más cercano.
Regla de inducción: la extracción de reglas if-then de datos basados en
significado estadístico.
Muchas de estas tecnologías han estado en uso por más de una década en
herramientas de análisis especializadas que trabajan con volúmenes de datos
relativamente pequeños. Estas capacidades están ahora evolucionando para
integrarse directamente con herramientas OLAP y de Data Warehousing.
¿CÓMO TRABAJA EL DATA MINING?
¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted
desconoce o que van a pasar? La técnica usada para realizar estas hazañas en
Data Mining se llama Modelado. Modelado es simplemente el acto de construir un
modelo en una situación donde usted conoce la respuesta y luego la aplica en otra
situación de la cual desconoce la respuesta (Presser Carne, 2009).
TÉCNICAS DE MINERÍA DE DATOS
La clasificación inicial de las técnicas de minería de datos distingue entre técnica
predictiva, en las que las variables pueden clasificarse inicialmente en dependientes
o independiente, técnicas descriptivas, en las que todas las variables tienen
inicialmente el mismo status y técnicas auxiliares (Presser Carne, 2009).
Las técnicas predictivas especifican el modelo para los datos en base a un
conocimiento teórico previo. El modelo supuesto para los datos debe contrastarse
después del proceso de minería de datos antes de aceptarlo como válido.
En las técnicas descriptivas no se asigna ningún papel predeterminado a las
variables. No supone la existencia de variables dependientes ni independientes y
tampoco se supone la existencia de un modelo previo a los datos. Los modelos se
crean automáticamente partiendo del reconocimiento de patrones (Pérez López &
Santín González, 2008).
Tanto las técnicas predictivas como las técnicas descriptivas están enfocadas al
descubrimiento del conocimiento embebido de los datos.
Las técnicas auxiliares son herramientas de apoyo más superficiales y limitadas. Se
trata de nuevos métodos basados en técnicas estadísticas descriptivas, consultas
e informes y enfocados en general hacia la verificación.
Figura 3. Clasificación de las técnicas de Data Mining
En la siguiente figura se muestra un diagrama con la clasificación de las técnicas de
minería de datos, que es clásico en la literatura de esta materia.
Figura
Figura 4 Mining
4. Data
VENTAJAS DE LA MINERÍA DE DATOS
Los análisis de datos mediante el Data Mining pueden aportar numerosas ventajas
a las empresas para la optimización de su gestión y tiempo, pero también para la
captación y fidelización de clientes, que les permitirá aumentar sus ventas:
1. Permite descubrir información que no esperábamos obtener. Esto se debe a
su funcionamiento con algoritmos, ya que permite hacer muchas
combinaciones distintas.
2. Es capaz de analizar bases de datos con una enorme cantidad de datos.
3. Los resultados son muy fáciles de interpretar y no es necesario tener
conocimientos en ingeniería informática.
4. Permite encontrar, atraer y retener clientes.
5. La empresa puede mejorar la atención al cliente a partir de la información
obtenida.
6. Da a las empresas la posibilidad de ofrecer a los clientes los productos o
servicios que necesitan.
7. Antes de usar los modelos, estos son comprobados mediante estadísticas
para verificar que las predicciones obtenidas son válidas.
8. Ahorra costes a la empresa y abre nuevas oportunidades de negocio.
DESVENTAJAS DEL DATA MINING
A pesar de todas estas ventajas, se debe considerar que existen algunas
desventajas en el Data Mining, como:
1. Una excesiva intensidad del trabajo puede requerir una inversión en equipos
de alto desempeño y la capacitación del personal.
2. Algunos usuarios pueden sentirse inseguros con su información al saber que
son estudiados independientemente del objetivo de ofrecer mejoras.
3. Dependiendo de la cantidad de base de datos puede tomar algo de tiempo
pre procesar toda esa información.
4. La carencia de un apropiado sistema de seguridad pondría en riesgo la
información privada de los usuarios.
5. No es un proceso perfecto, si la información es inexacta, afectaría el
resultado de la toma de decisiones.
Se debe entender que los datos son en palabras simples, la materia prima bruta;
cuando el usuario le asigna un valor en concreto estos pasan de ser datos a
convertirse en información. Con base en esto, los especialistas en el campo pueden
crear diversos modelos que utilizarán en conjunto con la información; se debe
destacar que de esta unión se genera el “conocimiento”.
FASES DE DATA MINING
Como se ha comentado anteriormente, Data Mining es una parte de un proceso de
rango superior: el descubrimiento del conocimiento. Sin embargo, Data Mining es
un proceso en sí mismo, que a su vez consta de varias fases.
Vamos a tomar como referencia el modelo CRISP (se denomina así por sus siglas
en inglés Cross Industry Standard Process) de proceso de Data Mining.
Figura 5. Fases del proceso de minería de datos
2. METODOLOGÍA CRISP-DM
ETAPAS DE UN PROYECTO DM
Desde las organizaciones de hoy en día, nos enfrentamos a proyectos complejos
con multitud de tareas interdisciplinares e interdependientes, que además mezclan
intereses y necesidades de diferentes grupos de personas y que normalmente están
condicionados por limitaciones económicas y tecnológicas. Lo recomendable en
estos casos es diseñar una hoja de ruta que nos va a permitir saber dónde estamos,
dónde queremos llegar y las medidas a tomar para corregir periódicamente las
desviaciones del rumbo seguido (Girónes & Otros, 2017).
La metodología CRISP-DM nació en el seno de dos empresas, DaimlerChrysler y
SPSS, que en su día fueron pioneras en la aplicación de técnicas de minería de
datos (en inglés, Data Mining) en los procesos de negocio. CRISP-DM se ha
convertido de facto en la metodología del sector. Su éxito se debe a que está basada
en la práctica y experiencia real de analistas de minería de datos que han
contribuido activamente al desarrollo de la misma (Girónes & Otros, 2017).
Veremos que hay dos aspectos clave en esta metodología: la adopción de la
estrategia de calidad total y la visión de un proyecto de minería de datos como una
secuencia de fases.
Calidad total
El compromiso con la calidad en el mundo de la gestión de proyectos pasa por
seguir de forma iterativa lo que se conoce como ciclo de Deming o ciclo PDCA:
Planificar (Plan): establecer los objetivos y los procesos necesarios para
proporcionar resultados de acuerdo con las necesidades del cliente y con las
políticas de la empresa.
Hacer (Do): implementar los procesos.
Verificar (Check): monitorizar y medir los procesos y los servicios
contrastándolos con las políticas, los objetivos y los requisitos, e informar
sobre los resultados.
Actuar (Act): emprender las acciones necesarias para mejorar
continuamente el rendimiento y comportamiento del proceso.
Un aspecto a destacar es que la iteración y revisión de fases y procesos se remarca
como un aspecto clave si se quiere ejecutar un proyecto de calidad.
De este modo se establecen micro ciclos de planificación, ejecución y revisión, de
los que solo se sale cuando el proceso de revisión es satisfactorio. Este principio
está muy presente tanto en la norma ISO 9000 como en la ISO 20000.
Todas las fases son importantes, por supuesto, pero cabe subrayar que la tendencia
natural de la condición humana, por experiencia propia, es la de concentrar recursos
en exceso al final del proyecto, en la fase de despliegue, por no haber hecho las
cosas bien en las fases anteriores (Girónes & Otros, 2017).
Merece la pena y es más óptimo y económico no escatimar recursos en las fases
iniciales de preparación, planificación, construcción e iteración.
Conviene mencionar también que la metodología debe ser entendida siempre como
una guía de trabajo que permite garantizar calidad en la entrega del proyecto. Para
conseguir que efectivamente sea una guía de trabajo útil y práctica, deberemos
adaptarla a las necesidades, limitaciones y urgencias que en cada momento
tengamos.
Vamos a estudiar todas las fases que nos propone la metodología CRISP-DM.
Observar que en el centro del esquema que la resume se encuentra el objetivo de
la misma, es decir, la conversión de los datos en conocimiento.
La siguiente figura esquematiza el ciclo de fases que propone CRISP-DM.
Figura 6. Fases de la metodología CRISPDM
ETAPA 1
1. Comprensión del negocio
En esta fase se trata de descubrir, desde una perspectiva de negocio, cuáles son
los objetivos del mismo, tratando de evitar el gran error de dedicar el esfuerzo de
todo el proyecto a proporcionar respuestas correctas a preguntas equivocadas. Con
los objetivos de negocio en mente, elaboraremos un estudio de la situación actual
del negocio respecto de los objetivos planteados. En este punto, trataremos de
clarificar recursos, requerimientos y limitaciones, para así poder concretar objetivos
de la minería de datos que contribuyan claramente a la consecución de los objetivos
primarios (Girónes & Otros, 2017).
Finalmente, se elaborará un plan de proyecto que se detalle las fases, tareas y
actividades que nos deberán llevar a alcanzar los objetivos planteados.
Figura 7. Fase de comprensión del negocio
Según (Girónes & Otros, 2017) “En esta fase deberemos ser capaces de”:
Establecer los objetivos de negocio: esta es la primera tarea a desarrollar
y tiene como metas, determinar cuál es el problema que se desea resolver,
por qué la necesidad de utilizar Data Mining y definir los criterios de éxito.
Evaluar la situación actual: en esta fase se definen los requisitos del
problema, tanto en términos de negocio como en términos de Data Mining.
Fijar los objetivos a nivel de minería de datos: esta tarea tiene como
finalidad representar los objetivos del negocio en términos de las metas del
proyecto de DM.
Obtener un plan de proyecto: esta última tarea de la primera fase de
CRISP-DM, tiene como meta desarrollar un plan para el proyecto, que
describa los pasos a seguir y las técnicas a emplear en cada paso.
2. Comprensión de los datos
Comprensión se refiere a trabajar los datos con el objetivo de familiarizarse al
máximo con ellos, saber de dónde provienen, en qué condiciones nos llegan, cuál
es su estructura, qué propiedades tienen, qué inconvenientes presentan y cómo
podemos mitigarlos o eliminarlos.
Se trata de una fase crítica puesto que es donde trabajamos de lleno con la calidad
de los datos, que además debemos ver como la materia prima para la minería de
datos.
Tener una buena calidad de los datos será siempre una condición necesaria,
aunque no suficiente para tener éxito en el proyecto.
Cuando nos encontramos en esta fase podemos retroceder a la fase anterior para
verificar que todo esté bien o hacer algún ajuste (retroalimentación).
Figura 8. Fase de comprensión de los datos
Según (Girónes & Otros, 2017) “Las principales tareas a desarrollar en esta fase
del proceso son”:
Recolectar los datos iniciales: esta tarea tiene como objetivo, elaborar
informes con una lista de los datos adquiridos, su localización, las técnicas
utilizadas en su recolección y los problemas y soluciones inherentes a este
proceso.
Descripción de los datos: este proceso involucra establecer volúmenes de
datos (número de registros y campos por registro), su identificación, el
significado de cada campo y la descripción del formato inicial.
Exploración de los datos: esto involucra la aplicación de pruebas
estadísticas básicas, que revelen propiedades en los datos recién adquiridos,
se crean tablas de frecuencia y se construyen gráficos de distribución.
Verificar la calidad de los datos: en este proceso se efectúan verificaciones
sobre los datos, para determinar la consistencia de los valores individuales
de los campos, la cantidad y distribución de los valores nulos, y para
encontrar valores fuera de rango, los cuales pueden constituirse en ruido
para el proceso.
ETAPA 2
3. Preparación de los datos
El objetivo de esta fase es disponer del juego de datos final sobre el que se aplicarán
los modelos. Además, también se desarrollará la documentación descriptiva
necesaria sobre el juego de datos.
Deberemos dar respuesta a la pregunta: ¿qué datos son los más apropiados para
alcanzar los objetivos marcados? Esto significa evaluar la relevancia de los datos,
la calidad de los mismos y las limitaciones técnicas que se puedan derivar de
aspectos como el volumen de datos. Documentaremos los motivos tanto para incluir
datos como para excluirlos (Girónes & Otros, 2017).
Nos replantearemos los criterios de selección de datos basándonos, por un lado, en
la experiencia adquirida en el proceso de exploración de datos, por otro lado, en la
experiencia adquirida en el proceso de modelado.
Consideraremos el uso de técnicas estadísticas de muestreo y técnicas de
relevancia de atributos, que nos ayudarán, por ejemplo, a plantear la necesidad de
iniciar actividades de reducción de la dimensionalidad.
Prestaremos atención a la incorporación de datos de diferentes fuentes y por
supuesto a la gestión del ruido.
Figura 9. Fase de preparación de los datos
En esta fase deberemos ser capaces de:
Seleccionar los datos: decidir los datos que serán usados en el análisis,
según criterios de los sistemas basados en explotación de información,
considerando la calidad y las restricciones técnicas.
Limpiar los datos: pretende alcanzar una calidad en los datos que lleve al
nivel requerido a través de técnicas.
Estructurar los datos: se realizan operaciones de preparación de atributos,
desarrollo de nuevos registros o la transformación de valores para atributos
y existentes.
Integrador los datos: representa el método a través del cual la información
se combina a partir múltiples tablas o registros para crear nuevos registros o
valores.
Formateo de los datos: representa una transformación que no pretende
codiciar el sentido de los datos, pero si ajustarlos en función de los
requerimientos de la herramienta de modelización.
4. Modelado
El objetivo último de esta fase será el de disponer de un modelo que nos ayude a
alcanzar los objetivos de la minería de datos y los objetivos de negocio establecidos
en el proyecto. Podemos entender el modelo como la habilidad de aplicar una
técnica a un juego de datos con el fin de predecir una variable objetivo o encontrar
un patrón desconocido.
El hecho de que esta fase entre en iteración tanto con su antecesora, la preparación
de los datos, como con su sucesora, la evaluación del modelo, nos da una idea de
la importancia de la misma en términos de la calidad del proyecto.
El hecho de que esta fase entre en iteración tanto con su antecesora, la preparación
de los datos, como con su sucesora, la evaluación del modelo, nos da una idea de
la importancia de la misma en términos de la calidad del proyecto.
Dado un problema en el ámbito de la minería de datos, pueden existir una o varias
técnicas que den respuesta al mismo, por ejemplo:
Un problema de segmentación puede aceptar técnicas de clustering, de
redes neuronales o simplemente técnicas de visualización.
Un problema de clasificación puede aceptar técnicas de análisis
discriminante, de árboles de decisión, de redes neuronales, máquinas de
soporte vectorial o de k -NN.
Un problema de análisis de dependencias puede afrontarse con técnicas de
análisis de correlaciones, análisis de regresión, reglas de asociación, redes
bayesianas o técnicas de visualización.
En definitiva, un mismo problema puede resolverse con varias técnicas y una
técnica puede servir para resolver varios problemas.
Figura 10. Fase de modelado
En esta fase deberemos ser capaces de:
Seleccionar técnicas de modelado: se ocupa de seleccionar técnicas de
modelado que serán usadas, considerando la más adecuada en función de
la comprensión del negocio.
Generar el plan de prueba: es necesario generar un procedimiento de
prueba o mecanismo de testeo para evaluar la calidad y validez del modelo.
Construir el modelo: representa el conocimiento de la herramienta con la
técnica seleccionada para crear uno o varios modelos de salida.
Evaluar el modelo: se interpreta como valido un modelo de acuerdo al
conocimiento del problema, los resultados de las pruebas, y otros criterios.
ETAPA 3
5. Evaluación del modelo
En fases anteriores nos hemos preocupado de asegurar la fiabilidad y plausibilidad
del modelo; en cambio, en esta fase nos centraremos en evaluar el grado de
acercamiento a los objetivos de negocio y en la búsqueda, si las hay, de razones de
negocio por las cuales el modelo es ineficiente. Una forma esquemática y gráfica de
visualizar el propósito de un proyecto de minería de datos es pensar en la siguiente
ecuación:
Resultados = Modelos + Descubrimientos
Es decir, el propósito de un proyecto de minería de datos no son solo los modelos,
que son por supuesto importantes, sino también los descubrimientos, que
podríamos definir como cualquier cosa aparte del modelo que contribuye a alcanzar
los objetivos de negocio o que contribuye a plantear nuevas preguntas, que a su
vez son decisivas para alcanzar los objetivos de negocio (Girónes & Otros, 2017).
Siempre y cuando sea posible probaremos el modelo en entornos de prueba para
asegurarnos de que el posterior proceso de despliegue se realiza satisfactoriamente
y para asegurarnos también de que el modelo obtenido es capaz de dar respuesta
a los objetivos de negocio.
Estableceremos un ranquin de resultados con respecto a los criterios de éxito con
relación al grado de cumplimiento de los objetivos de negocio.
Adicionalmente, también emitiremos opinión sobre otros descubrimientos que se
hayan realizado aparte del modelado que, aunque probablemente no contribuyan
directamente a los objetivos planteados, quizá puedan abrir puertas a nuevos
planteamientos y líneas de trabajo.
Figura 11. Fase de evaluación
En esta fase deberemos ser capaces de:
Evaluar los resultados: la evaluación es poner a prueba al modelo mediante
aplicaciones que corran en tiempo real para determinar las restricciones del
mismo.
Revisión del proceso: se esperan que los resultados del modelo sean
satisfactorios y que además satisfagan las necesidades del negocio.
Determinar próximos pasos: de acuerdo con los resultados obtenidos y a
la revisión de procesos, se debe decidir cómo proceder.
6. Despliegue
En esta fase organizaremos y ejecutaremos tanto las tareas propias del despliegue
de los resultados como del mantenimiento de las nuevas funcionalidades, una vez
el despliegue haya finalizado.
El plan deberá contemplar todas las tareas a realizar en el proceso de despliegue
de resultados, e incorporará medidas alternativas en forma de planes alternativos o
versiones del plan inicial, que deberán permitir tener varias visiones y escoger la
mejor.
Deberemos definir cómo el conocimiento obtenido en forma de resultados será
propagado hacia los usuarios interesados. En el caso de que haya que instalar o
distribuir software por nuestros sistemas, deberemos gestionarlo para minimizar
posibles efectos negativos y planificarlo para que se ejecute con suficiente
antelación.
Habrá que prever cómo mediremos el beneficio producido por el despliegue y cómo
monitorizaremos todo el proceso. Identificaremos los posibles inconvenientes que
pueda ocasionar nuestro despliegue.
Figura 12. Fase de implementación
En esta fase deberemos ser capaces de:
Plan de implantación: para desplegar los resultados de los sistemas
basados en exploración de información dentro del negocio, se debe tomar
los resultados de la evaluación y concluir en el desarrollo de una estrategia.
Plan de monitoreo y mantención: una cuidadosa preparación y un
mantenimiento estratégico ayuda evitar largos periodos innecesarios del uso
incorrecto de los resultados de los sistemas basados en explotación de
información.
Producir informe final: el reporte debe ser solo un resumen del proyecto y
las experiencias o bien puede ser una presentación comprensiva y final de
los resultados.
CONCLUCIONES
El Data Mining permite descubrir información valiosa que no es obvia a
simple vista y que no son evidentes para los humanos, mediante análisis
matemático y algoritmos para deducir patrones y tendencias que existen en
los datos.
Existen diversos modelos propuestos para el desarrollo de proyectos de
minería de datos, uno de esos modelos principalmente se utiliza en los
ambientes académicos e industrial, como es el CRISP-DM.
La metodología CRISP-DM es imparcial a las herramientas utilizadas para la
minería de datos, está organizada en secuencia jerárquica de procesos de
diferentes niveles, cubre las fases de un proyecto, sus tareas respectivas y
las relaciones entre estas tareas.
BIBLIOGRAFÍA
Girónes, G., & Otros. (2017). Minería de Datos. Modelos y algoritmos. Barcelona-
España: Editorial UOC.
Palma, C. (2009). Data mining: el arte de anticipar. Santiago de Chile: RIL editores.
Pérez López , C., & Santín González, D. (2008). Minería de Datos. Técnicas y
herramientas. España: Thomson Ediciones Paraninfo, S.A.
Presser Carne, C. (2009). Data mining. El Cid Editor. Obtenido de
[Link]
728&query=data+mining
[Link]
[Link]