Técnico en Administración de Empresas y Gestión de Personal
Asignatura: Administración de Empresas II
Integrantes:
Castro Alcayaga Claudia
Fernández Olsen Ma. Soledad
Formondoy Sepúlveda Carol
Méndez Rivera Gissell
Parra Muñoz Carolina
Docente: Moya Henríquez Héctor.
Fecha de entrega: 23/10/2018.
1
INDICE
Contenido
1 INTRODUCCIÓN.........................................................................................................................3
2 CÓMO SURGE DATAMINING.....................................................................................................4
3 TÉCNICAS Y PROCESOS COMO HERRAMIENTAS DEL COMPORTAMIENTO DE DATOS.............5
3.1 Procesos..........................................................................................................................5
Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de
Data mining, deberán realizar 4 pasos distintos:.........................................................5
3.2 Protocolo de minería de datos................................................................................6
3.3 Técnicas de minerías de datos................................................................................6
4 LAS APLICACIONES EN LAS DIVERSAS AREAS............................................................................9
5 LAS TENDENCIAS......................................................................................................................11
6 VENTAJAS Y DESVENTAJAS DEL DATA MINING.......................................................................12
7 BIBLIOGRAFIA..........................................................................................................................13
8 CONCLUSION............................................................................................................................14
1
1 INTRODUCCIÓN
Desde la antigüedad los sistemas de información se han organizado para asistir en la toma
de decisiones. La ciencia concibe a la tecnología como la suma de descubrimientos, invenciones y
herramientas con las que cuenta una civilización.
Hoy en día la ciencia considera que Datamining es el conjunto de técnicas y tecnologías
que nos permite ser capaces de extraer patrones, de describir tendencias y regularidades,
predecir comportamientos y, en general, de sacar partido a la información computarizada que nos
rodea hoy en día, generalmente heterogénea y en grandes cantidades, permite a los individuos y a
las organizaciones comprender y modelar de una manera más eficiente y precisa el contexto en el
que deben actuar y tomar decisiones.
Ya desde los años 60, los estadísticos manejaban términos como Datafishing o Data
Archeology, con la idea de encontrar correlaciones sin una hipótesis previa en base de datos con
ruido. A principios de los años 80, Rakesh Agrawal, GioWiederhold, Robert Blum y Gregory
Piatetsky-Shapiro entre otros, empezaron a consolidar los términos de minería de datos.
Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al
ámbito académico y al de los negocios.
Es por lo cual que en esta investigación determinaremos los siguientes aspectos.
Objetivo general:
Conocer, presentar y describir la utilización del recurso Datamining como herramienta para
fortalecer el proceso de extracción de datos.
Objetivos específicos:
1. Analizar cómo surge Datamining.
2. Describir las técnicas y procesos como herramientas del comportamiento de datos.
3. Las aplicaciones de Datamining en las diversas áreas.
4. Describir las tendencias.
5. Identificar ventajas y desventajas.
1
2 CÓMO SURGE DATAMINING
Se puede definir como el proceso de seleccionar, explorar, modificar, modelizar y valorar
grandes cantidades de datos, con el objetivo de descubrir patrones desconocidos que puedan ser
utilizados como ventaja comparativa respecto a los competidores.
Esta idea de DM lleva a la siguiente estructura de conocimiento:
Datos + Estadística → Información
El símbolo → tiene el siguiente sentido: los datos están bien recogidos y la estadística bien
aplicada.
Datamining surge para intentar ayudar a comprender el contenido de un repositorio de
datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de
búsqueda próximos a la inteligencia artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta en el momento que el usuario les atribuye
algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación que surge entre la información y ese
modelo represente un valor agregado, entonces nos referimos al conocimiento.
El resultado de este proceso es información valiosa que nos ayuda a tomar mejores decisiones en un
ámbito particular. Los límites de cada término son difusos, pero en general se considera que, si el big
data se encarga de almacenar grandes volúmenes de datos, el Datamining se encarga de analizarlos.
Generalmente, los tipos de análisis involucrados se clasifican de la siguiente forma:
Análisis descriptivo. Describir lo que está sucediendo.
Análisis predictivo. Predecir lo que sucederá.
Análisis prescriptivo. Determinar qué hacer con base en los datos recogidos.
Muchos limitan la definición de Datamining a la extracción de datos, sin incluir el análisis y la obtención
de conclusiones a partir de los mismos.
1
3 TÉCNICAS Y PROCESOS COMO HERRAMIENTAS DEL
COMPORTAMIENTO DE DATOS.
3.1 Procesos
Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de Data mining, deberán
realizar 4 pasos distintos:
Determinación de los objetivos: el cliente determina que objetivo quiere conseguir gracias al
uso del Datamining.
Procesamiento de los datos: selección, limpieza, enriquecimiento, reducción, y
transformación de la base de datos.
Determinación del modelo: primero se debe hacer un análisis estadístico de los datos y
después visualización grafica de los mismos.
Análisis de resultados: en este paso se deberán verificar si los resultados obtenidos son
coherentes.
Actualmente este tipo de trabajos se están realizando en seguridad de datos, finanzas, salud,
marketing, detección de fraude, búsquedas online, procesamiento del lenguaje natural, entre
otros. Es por este motivo, que la minería de datos se está convirtiendo en uno de los trabajos con
mayor proyección para el futuro.
Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o,
si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta
retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo
válido.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre información contenida
en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y
alimentan bases de datos especialmente diseñadas para proyectos de minería de datos en las que
centralizan información potencialmente útil de todas sus áreas de negocio. No obstante,
actualmente está cobrando una importancia cada vez mayor la minería de datos desestructurados
como información contenida en ficheros de texto, en Internet, etc.
1
3.2 Protocolo de minería de datos
Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente:
Comprensión: del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza: de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación: de los resultados obtenidos.
Integración: si procede, de los resultados en un sistema transaccional o similar.
La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más
compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en
proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta
complejidad de una manera más o menos uniforme.
3.3 Técnicas de minerías de datos
Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia
artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos resultados.
Las técnicas más representativas son:
Redes neuronales.- se trata de una herramienta de análisis estadístico que permite la
construcción de un modelo de comportamiento a partir de una determinada cantidad de
ejemplos, constituidos de una determinada cantidad de variables descriptivas de dicho
comportamiento. Por ejemplo, al impartir a una red neuronal un aprendizaje relacionado con
descripciones de personas que piden préstamos (estado civil, profesión, etc.), junto a su
comportamiento adoptado frente al reintegro del dinero, nos encontramos con capacidad de
construir un modelo del riesgo asociado con la descripción de los clientes. Si luego le pedimos
a ese modelo predicciones sobre nuevos expedientes, podemos constatar que la red neuronal
predice con buena precisión si el cliente pagará bien o no.
1
Árboles de decisión.- Son modelos que tienen estructuras de forma de árbol que
representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación
de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de
Clasificación y Regresión (CART: Clasificación And Regresión Tree). Básicamente, los
árboles de decisión son representaciones gráficas de la lógica de las probabilidades
aplicada a las alternativas de decisión. El tronco del árbol es el punto de partida de la
decisión. Las ramas de éste comienzan con la probabilidad del primer acontecimiento. La
probabilidad de cada acontecimiento produce dos o más efectos posibles, algunos de los
cuales conducen a otros acontecimientos de probabilidad y a puntos de decisión
subconsecuentes. Los valores en los que se cifran las ramas del árbol provienen de un
análisis muy cuidadoso que se basa en el establecimiento de un criterio para la toma de
decisión.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se
emplea en todos los diseños experimentales y en la regresión para indicar los diferentes
factores que modifican la variable de respuesta.
Clases: las observaciones se asignan a grupos predeterminados. El proceso de clasificación
consiste en asignar un conjunto de datos a grupos fijados de manera que se minimice la
probabilidad de una clasificación errónea. Por ejemplo, un problema típico de clasificación
es el de dividir una base de datos de bancos en grupos que sean lo más homogéneos
posibles con respecto a variables como posibilidades de crédito en términos de valores
tales como bueno o malo
Clusters: se construyen grupos de observaciones similares según un criterio prefijado. El
proceso de clustering (agrupamiento) consiste en subdividir un conjunto de datos en
grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo
más cercano posible a otro elemento, y grupos diferentes estén lo más lejos posible entre
sí, de modo que la distancia está medida respecto a todas las variables disponibles. Un
típico ejemplo de aplicación de clustering es la clasificación de segmentos de mercado.
1
Por ejemplo, una empresa quiere introducirse en el mercado de bebidas
alcohólicas, pero antes hace una encuesta de mercado para averiguar si existen grupos de
clientes con costumbres particulares en el consumo de bebidas. La empresa quiere
introducirse en el grupo (si existe) que esté menos servido por la competencia. En este
ejemplo no existen grupos de clientes predeterminados.
Asociaciones: las observaciones son usadas para identificar asociaciones entre variables.
La búsqueda de asociaciones es diferente a la búsqueda de relaciones causales. Las
relaciones causales son mucho más difíciles de encontrar que las asociaciones, debido a la
presencia de variables no observadas. Las relaciones causales y asociaciones no son
equivalentes: si hay asociaciones no tiene por qué haber causalidad.
Patrones secuenciales: se trata de identificar patrones de comportamiento y tendencias.
Un ejemplo sería intensidades de expresión en microarrays que permiten distinguir entre
diferentes expresiones de genes para individuos con cáncer o sin él.
1
4 LAS APLICACIONES EN LAS DIVERSAS AREAS.
La integración de la técnica de minería de datos en las actividades del día a día se está
convirtiendo en algo habitual. Los negocios de la distribución y la publicidad dirigida han sido
tradicionalmente las áreas en el que más se han empleado los métodos de minería, ya que han
permitido reducir costes o aumentar la receptividad de ofertas. Pero estas no son las únicas áreas
a las que se puede aplicar.
La minería de datos puede contribuir significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando e-mails, sólo se contactará con
aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción.
Toma de Decisiones. Ejemplos: banca, finanzas, seguros, marketing, políticas sanitarias
demográficas.
Procesos Industriales.
Investigación Científica Ejemplos: medicina, epidemiología, bioinformática, psicología.
Soporte al Diseño de Bases de Datos.
Mejora de Calidad de Datos.
Mejora en el área de empresas de Consulting.
Siendo un poco más concretos, a continuación, incluimos una lista de ejemplos en algunas
áreas antes mencionadas, para ilustrar para que ámbitos se puede usar la minería de datos.
1. Comercio/Marketing
Identificación de patrones de compra de los clientes.
Búsqueda de asociaciones entre clientes y características demográficas.
Predicción de respuesta a campañas de correo.
Análisis de cestas de la compra.
2. Banca
1
Detección de patrones de uso fraudulento de tarjetas de crédito.
Identificación de clientes leales.
Predicción de clientes con probabilidad de cambiar su afiliación.
Determinación del gasto de tarjeta de crédito por grupos.
Búsqueda de correlaciones entre indicadores financieros.
Identificación de reglas de mercado de valores a partir de históricos.
3.Seguros y Salud Privada
Análisis de procedimientos médicos solicitados.
Predicción de qué clientes compran nuevas pólizas.
Identificación patrones de comportamiento para clientes con riesgo.
Identificación de comportamiento fraudulento.
5 LAS TENDENCIAS
Los numerosos desafíos que conlleva el proceso de minería de datos han servido de fuente de
inspiración a quienes han visto los obstáculos convertirse en oportunidades de mejora. La
1
construcción de entornos integrados e interactivos y el diseño de lenguajes de minería de datos
son sólo un par de muestras del progreso en este campo, que queda patente con las novedades
en:
Exploración de aplicaciones: que explota las posibilidades de la prospección en los datos para
aportar soluciones punteras a cada sector, contribuyendo a la innovación y garantizando un
mejor servicio al cliente. Los campos de las finanzas, el retail, las telecomunicaciones o la
investigación médica son algunos de los más favorecidos, aunque no los únicos.
Integración de la minería de datos con los sistemas de bases de datos, sistemas de
almacenamiento de datos y los sistemas de bases de datos web: para lograr la máxima
eficiencia.
Normalización de lenguaje de consulta de minería de datos: para que los comandos que
provee puedan trabajar con cualquier base de datos o data warehouse y sean aplicables a la
definición de tareas de data mining.
Visual Data Mining: esta tendencia de minería de datos aumenta la eficiencia del proceso, al
disminuir el tiempo de trabajo gracias a una forma de llevar a cabo la prospección en los datos
mucho más intuitiva y sencilla.
Nuevos métodos para la minería de datos complejos: los conjuntos de datos pierden
simplicidad al tiempo que aumenta la dificultad de los procedimientos de negocio. Las
soluciones de minería han de ser capaces de soportar las condiciones de trabajo en un
entorno de este tipo, sin que ello incida negativamente en sus resultados.
Distributed Data Mining: es la respuesta tecnológica a las necesidades que plantean las bases
de datos distribuidas. Los algoritmos se centran en estas particulares tareas, prestando
especial atención a todo lo relacionado con su análisis y modelado.
La minería de datos en tiempo real: la extracción de conocimiento a partir de información
para la toma de decisiones empresarial ha de ser capaz de aportar el dinamismo que los
mercados requieren hoy día. Los datos se procesan en tiempo real y también deben poder ser
analizados a este ritmo.
Protección de la privacidad y seguridad de la información en la minería de datos: con el
aumento de la velocidad, la variedad y el volumen de los datos la seguridad plantea
incertidumbres a las empresas, que la señalan como una de sus preocupaciones más
1
importantes. Los procedimientos de minería de datos que se lleven a cabo no pueden, en
ningún caso, comprometer a los datos críticos e información relevante del negocio. En esta
línea, las tendencias apuntan a la consecución de una mayor integridad, tanto en lo referente
a bases de datos físicas, como a las lógicas y por supuesto también en relación a cada
elemento en particular.
6 VENTAJAS Y DESVENTAJAS DE DATAMINING
1
Los análisis de datos mediante el DATAMINING pueden aportar numerosas ventajas a las
empresas para la optimización de su gestión y tiempo, pero también para la captación y
fidelización de clientes, que les permitirá aumentar sus ventas.
Al realizar el Datamining se consiguen ventajas como:
1. Asiste en la prevención de situaciones adversas futuras mostrando datos verídicos.
2. Contribuye a la toma de decisiones estratégicas al descubrir información clave.
3. Mejora a la compresión de la información y conocimiento, facilitando la lectura a los usuarios.
4. Reduce el riesgo de perder usuarios y enseña nuevas maneras de atraer potenciales clientes y
mantenerlos.
5. Mejora la relación de la empresa con los clientes al conocer la información y factores que ellos
necesitan.
A pesar de todas estas ventajas, se debe considerar que existen algunas desventajas como:
1. Una excesiva intensidad del trabajo puede requerir una inversión en equipos de alto
desempeño y la capacitación del personal.
2. Algunos usuarios pueden sentirse inseguros con su información al saber que son estudiados
independientemente del objetivo de ofrecer mejoras.
3. Dependiendo de la cantidad de base de datos puede tomar algo de tiempo pre procesar toda
esa información.
4. La carencia de un apropiado sistema de seguridad pondría en riesgo la información privada de
los usuarios.
5. No es un proceso perfecto, si la información es inexacta, afectaría el resultado de la toma de
decisiones.
7 BIBLIOGRAFIA
Libro “Introducción a la minería de datos”
1
Autores: José Hernández Orallo
María José Ramírez Quintana
César Ferri Ramírez
https://blog.es.logicalis.com/analytics/tendencias-en-mineria-de-datos
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/DM/introduccion-DM.pdf
8 CONCLUSION
Terminado este trabajo de investigación, nuestro grupo pudo concluir lo siguiente:
1
Las técnicas que utiliza esta herramienta tienen como objetivo descubrir patrones, perfiles y
tendencias a través del análisis de los datos utilizando tecnologías innovadoras de reconocimiento
de patrones a nivel de redes neuronales, arboles de decisión, técnicas y tecnologías avanzadas en
lo que respecta al análisis de datos.
Podemos agregar que los datos son el medio o la base para llegar a conclusiones y
transformar estos datos en información relevante, para que las empresas puedan incluir mejoras y
soluciones que les ayuden a conseguir sus objetivos.
Datamining se ha transformado en un proceso esencial para descubrir diversos patrones
en grandes volúmenes de datos, utilizando modelos predictivos enfocado hacia las nuevas
perspectivas y pronosticando las situaciones futuras de las empresas, ayudando a tomar
decisiones de negocios proactivamente.
En la actualidad estamos inmersos en “DATAMINING”, ya que las empresas en general y en
sus distintas áreas ocupan esta herramienta para captarnos como clientes, ordenando y
clasificando nuestras tendencias mediante la información que entregamos día a día sin darnos
cuenta.
Para entender mejor esta información daremos a continuación algunos ejemplos:
Búsqueda de música romántica en YouTube, creando una tendencia sobre ese estilo de
música entregando sugerencias.
Al cancelar en una tienda comercial o supermercado, nos piden el RUT y de esta forma
estamos entrando en una base de datos.
Al solicitar un crédito bancario nos clasifican según: renta, profesión, estado civil, edad,
etc. que junto al comportamiento de pago se construye un modelo predictivo en base a la
información computarizada.