Introducción A Data Mining: (Minería de Datos)
Introducción A Data Mining: (Minería de Datos)
DATA MINING
(Minería de Datos)
Nos enfrentamos a una nueva etapa en la organización de la producción
La información y la analítica son las principales
capacidades requeridas
Digitalización e integración de
cadenas de valor verticales y
horizontales
Digitalización de productos y
servicios
Modelos de negocio digitales
y acceso al cliente
Acelerada incorporación de la tecnología a la producción
50 350
300
40
254
250
30 200
150
20 15,4
100
10
50
0 0
2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2004 2006 2008 2010 2012 2014 2016 2018 2020
Financiero
Salud
Energía
Industrial
Retail
Bienes de consumo
Alimentos y tabaco
Fuente: CISCO
Unidades de
Almacenamiento de
Información
Crecimiento estimado
▪ Se estima un crecimiento del 4300% en la
generación de datos anuales para 2020.
[Link] 10
Historia de la minería de Datos.
Historia de la minería de Datos.
La minería de datos es algo que empieza por los alrededores de los años sesenta, ya
los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data
Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases
de datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y
Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de
Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se
desenvuelven en el ámbito de los negocios y académico.
Algoritmo: Tomar un alumno y contar las clases en que estuvo presente y dividir el resultado
por la cantidad de clases dictadas y multiplicar el resultado por 100
Ej. de Información
Algoritmo: Tomar alumno por alumno y contar clase por clase si estuvo
presente. Luego dividir el resultado de cada clase por la cantidad de
alumnos del curso y multiplicar ese resultado por 100
Conceptos y términos clave
Datos vs Información vs Conocimiento vs Sabiduría
Discretos n ú m e r o d e hijos
Cuantitativos
Continuos precio d e ve n t a
Conceptos y términos clave
Algoritmo
Secuencia de operaciones que resuelven una conjunto de problemas y que involucran el procesamiento de
datos, el cálculo de operaciones matemáticas, o la predicción de resultados basados en evidencia.
Rendimiento
También llamado performance o desempeño. Es un valor numérico que mide la capacidad de un modelo o
algoritmo de minería de datos para reconocer patrones (clases, predicciones, grupos, etc.) en los datos.
Parámetros
Valores que influyen en el comportamiento y desempeño de un modelo de minería de datos.
Conceptos y términos clave
Dataset
También llamado conjunto de datos o base de datos. Es una colección de datos u observaciones relacionadas a un
problema determinado. Cuando el dataset se almacena en una matriz, las columnas representan los atributos de un
problema y las filas representan las observaciones de distintas instancias o del problema. Para datos textuales, al
dataset también se le denomina corpus.
Características
También llamado feature, variable o atributo. Representan las propiedades de un objeto en un dataset. Pueden ser
observables y no observables. Los primeros, se pueden medir de forma automática (pixeles de un objeto, las
palabras de un tweet) o de forma manual (nombre de una persona o el género de una una canción). Los
segundos, se representan como un vector numérico en cierto espacio matemático llamado embedding.
Instancias
También llamadas observaciones o registros. Es el conjunto de distintas características asociadas al mismo
objeto. El número de dimensiones de estas representa la cantidad de atributos que describen a los objetos del
dataset.
Conceptos y términos clave
Etiqueta
Llamada también label o etiqueta de clase. Es el valor asignado a una observación u objeto en un dataset. A
menudo cada observación posee una etiqueta la cual ha sido otorgada por una persona (o algoritmo) después de
observar sus características (atributos).
Instancias
Características
Etiqueta
Minería de datos
Introducción
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los
modelos de minería de datos se pueden aplicar en escenarios como los siguientes:
• Pronostico
Escenarios para • Calculo de Riesgo y Probabilidad
Modelos de Minería • Recomendaciones
de Datos • Búsqueda de secuencias
• Agrupación
Introducción a Data Mining
OBJETIVO
El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de
datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis
en bruto, supone aspectos de gestión de datos y de bases de datos, de procesamiento de datos, del
modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría
de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la
visualización y de la actualización en línea minería de datos es una forma innovadora de obtener
información comercial
Introducción a Data Mining
• Bases de Datos
• Computo Científico
CIENCIAS
COMPUTACIONALES • Redes de Computadoras y TICs
Estadísticas
y Análisis
Metadatos
Datos
estructurados
Datos no
estructurados
La minería de datos puede identificar patrones en los datos de la empresa, por ejemplo, en los registros de
compra de un supermercado. Si, por ejemplo, los clientes compran los productos A y B, ¿qué producto C
es más probable que compren también?
Viene del Inglés DATA = datos y WAREHOUSE = almacén, por eso, una DATA
WAREHOUSE es un almacén de datos.
Esta palabra se utiliza para hablar de un almacén de datos diseñado para permitir
las actividades de inteligencia de un negocio. En definitiva sirve para ayudar
analizar los datos recopilados por la empresa con el fin de mejorar su
rendimiento.
Un Data Warehouse o Almacén de
Datos, es una gran base de datos,
normalmente medida en gigabytes
(miles de millones de caracteres) o
terabytes (billones de letras), que
recoge información de múltiples
fuentes, y que su actividad se centra
en la Toma de Decisiones, es decir,
en el análisis de la información, en
vez de su captura.
Introducción a Data Mining
DATAWEREHOUSE
La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto
de vista técnico, para implantar una solución completa y fiable de BUSINESS INTELLIGENCE.
Los principales productos de BUSINESS INTELLIGENCE que existen hoy en día son:
* DATAMART
* DATAWAREHOUSE
Definición Datos
Minería de datos
Analogía
Conocimiento
La regresión lineal es otra de las técnicas de minería de datos más utilizadas en un sector
que no para de crecer debido a la transformación digital. En ella, se relacionan dos variables
continuas, concretamente, las variables de predicción y de respuesta.
Hablamos de regresión lineal cuando existe solo una variable de predicción y de regresión
múltiple cuando hay más de una. Sea lineal o múltiple, es una variable independiente
mientras que la de respuesta depende de la anterior.
Series Temporales
Importante
Los problemas y la secuencia de los árboles de decisión se plasman en estos árboles, donde un nodo es un punto de unión
conectado por ramas.
El árbol se crea de izquierda a derecha, pero se evalúa de forma inversa, simplemente porque a la izquierda se encuentra
la decisión y a la derecha los resultados.
Consta de 4 elementos:
Puntos de decisión: se representan con un cuadrado. Aquí el decisor elige una alternativa de acción entre un
número finito de ellas que son representadas por las ramas cuyos costes asociados se escriben sobre ellas. Las ramas
escogidas pueden acabar en otro punto de decisión, en uno de azar o en un resultado.
Puntos de azar: se dibujan con un círculo e indican que un suceso aleatorio se espera en este punto del proceso.
Desde aquí también surgen ramas.
Ramas: en el argot del big data se definen como alternativas cuando salen de los puntos de decisión y como estados
de la naturaleza cuando salen de los puntos de azar. En este último caso, se les asigna unas probabilidades
determinadas.
Resultado: al final tenemos que decidir qué decisión tomar en función del resultado obtenido proveniente de cada
rama.
Tareas predictivas
Redes Neuronales
Esta técnica de data mining se basa en el funcionamiento de nuestras neuronas, pues el
cerebro humano tiene millones que se conectan entre sí en un proceso llamado “sinapsis”.
Gracias a ello, cada uno de nosotros es capaz de pensar.
Esta red neuronal artificial se parece tanto a una biológica que cuenta con nodos de entrada
(reciben información del exterior), nodos de salida (transmiten información al exterior) y
nodos ocultos (intercambian información con otros nodos de la red).
Cuando estos nodos están definidos se pasa a la fase de aprendizaje donde se asignan
diferentes valores a estos nodos hasta encontrar respuestas, pues es la propia red la que los
crea, modifica o elimina automáticamente.
La principal ventaja de esta técnica de data mining es su capacidad para trabajar con datos
incompletos.
Tareas descriptiva
Clasificación post hoc
La clasificación es el proceso de encontrar un modelo que describa y distinga clases o conceptos de objetos. Los
modelos se crean basados en el análisis de un conjunto de datos de entrenamiento (objetos para los cuales las
etiquetas de clase son conocidas). Una vez creado el modelo, se utiliza para predecir la etiqueta de clase de objetos
para los cuales dicha información es desconocida.
Importante
Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de
correos y promociones personalizadas a los usuarios que integran una base de datos.
Importante
Coeficiente de correlación:
donde
Análisis factorial
Análisis multidimensional
Análisis de correspondencias
Tareas descriptiva
Análisis Exploratorio
El análisis exploratorio de datos (Exploratory Data Analysis, EDA) o estadística
descriptiva es un paso previo e imprescindible a la hora de comprender los datos
con los que se va a trabajar y altamente recomendable para una correcta
metodología de investigación.
El análisis multidimensional permite al investigador determinar las dimensiones subyacentes claves en las
evaluaciones de los objetos de estudio. Este tipo de análisis, también conocido como elaboración de mapas
perceptuales, permite al investigador determinar la imagen percibida relativa de un conjunto de objetos, por
medio de la transformación de las opiniones de los individuos en distancias representadas en un espacio
multidimensional, por tanto, este análisis se basa en las comparaciones entre objetos, suponiendo que cada
tipo de objeto posee dimensiones objetivas y subjetivas.
Debe quedar claro, no obstante, que la interpretación de las dimensiones muchas veces se convierte más
en un arte que en una ciencia; por ello, se recomienda prudencia por parte de los investigadores a la hora
de realizar la interpretación de los mismos.
El proceso KDD
Introducción KDD
Definición
64
Etapas del proceso KDD
Interpretación /
Evaluación
Conocimiento
Patrones
Minería de datos
Datos transformados
Transformación
Datos procesados
Preprocesamiento
Limpieza
Datos objetivo
Selección
Dominio del
problema
Etapas del proceso KDD
La mayor parte del proceso de KDD es iterativo e
interactivo.
▷La salida de esta etapa es el dominio del problema y los datos en “crudo”.
Etapas del proceso KDD
1 Selección de Datos
69
Etapas del proceso KDD
Limpieza de datos
71
Etapas del proceso KDD
3 Transformación
73
Etapas del proceso KDD
4 Minería de datos
76
Evaluación de los patrones. Se identifican verdaderamente patrones
interesantes que representan conocimiento usando diferentes técnicas
incluyendo análisis estadísticos y lenguajes de consultas.
77
Síntesis de la clase
Interpretación /
Tareas predictivas Evaluación
- Regresión Conocimiento
- Clasificación
Transformación Conocimiento
Información
Datos procesados
D a tos
Limpieza
Binarios
Cualitativos
Atributos o características No -binarios
Binarios
edad estudiante rating_credito clase
Selección O rdinales
adulto no bueno si
No -binarios
joven no bueno no
adulto si bueno si
Instancias
Tupla
joven si excelente si
anciano no no excelente si Discre tos
Cuantitativos
adulto excelente no
Dominio del
Conjunto d e datos
problema Continuos
Síntesis de la clase
Etapas de KDD
Interpretación/
Evaluación
Minería de Datos
Transformación
Preprocesamiento
Selección Conocimiento
Patrones
Datos Datos
Datos procesados transformados
Datos
objetivos
Representación de
Expertos
Reglas, patrones, …
APLICACIÓN ANÁLISIS
Toma de Visualización
Decisiones CONOCIMIENTO
Selección
Editado
Filtros Validación
Bases de Regresión
datos temporales Clasificación
Selección de atributos
Clustering
81
Data Warehouse
En un DW se consolida y estandariza
información de diferentes bases de
datos operacionales, para que pueda
ser utilizada por toda la empresa para
la toma de decisiones
Qué es un Data Warehouse?
• Un DW hace accesible la
información a quien la necesite,
pero estos no pueden alterarla.
Análisis
Multidimensional Data Mining
OLAP
Online Analytical Processing (OLAP)
65 % de las veces
Planeación de ventas
Pañales y cervezas:
• Finales de los 90 en Walmart.
•Desarrollo de proyecto de minería de datos sobre su
Un último ejemplo bodega de datos.
Resultados interesantes
•Correlación entre quien compra pañales y cervezas
• Varones entre 25 y 35 años compraban estos productos conjuntamente los
viernes por la tarde.
¿Como explicarlo? → las madres mandaban a los papás a comprar los pañales y
de paso como es viernes pues aprovechan y compran las cervezas. Los pañales
son un producto voluminoso.
97
Expectativas
Necesitamos:
la integración de herramientas avanzadas con
los datos,
procesos de generación de conocimiento y
la segmentación de la información
para obtener tendencias e información oculta.
98
¿La solución?
Business Intelligence
99
Inteligencia de los Negocios o
Business Intelligence
Es un conjunto sofisticado de Herramientas y Tecnológicas; que
brindan soporte a todas las fases del proceso de toma de
decisiones de los ejecutivos; con el objeto de mejorar las ventajas
competitivas de la organización, a través de mejores decisiones y
que son utilizadas por los llamados Trabajadores del
Conocimiento.
Howard Dresner (“The Gartner Group”)
101
Inteligencia de los Negocios o
Business Intelligence
Herramientas OLAP
Data Warehouse
BD Corporativa
Sistemas OLTP
102
Almacén de Datos – Data Warehouse
103
Mercado de Datos – Data Mart
104
OLAP (On-Line Analytical Processing)
Análisis multidimensional.
Agiliza la consulta de grandes cantidades de datos.
105
Inteligencia de los Negocios o
Business Intelligence
Quién necesita soluciones de Business
Intelligence?
Si usted puede contestar afirmativamente por lo menos a una de las siguientes
preguntas, entonces usted es candidato a beneficiarse de las soluciones de BI.
Datos: son hechos, medidas u observaciones, que pueden presentarse (o no) en un contexto dado. Datos sin
contexto son 60, 62, 66, 72. Los mismos datos, ahora con contexto, podrían representar el peso en kilogramos de
Laura, Ana, Juan y Pedro, respectivamente. La validez y la efectividad de los datos vienen determinadas
principalmente por su exactitud.
Información: Son los datos organizados de cierta manera, de forma tal que sean de utilidad y relevancia para
quien tiene que resolver un problema de decisión. El criterio clave para evaluar la información es su utilidad.
Conocimiento: Es una combinación de instintos, ideas, reglas, procesos e información que un decisor aplica para
guiar sus acciones y decisiones. El conocimiento es una interpretación realizada por la mente, que será válida
cuando pueda explicar las interacciones de un problema con su contexto
Los pasos para seguir un proyecto de
Minería de Datos / Data Mining
Los pasos para seguir un proyecto de Minería de Datos
/ Data Mining
1. Comprensión del negocio y del problema que se quiere resolver.
2. Filtrado de datos
3. Selección de variables
4. Realizar la limpieza de los datos
5. Seleccionar los métodos para la selección de los atributos
6. Extracción de Conocimiento, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las variables del problema o
relaciones de asociación entre dichas variables.
7. Interpretación y Evaluación, se procede a su validación; donde se comprueba que las
conclusiones que arroja son válidas y suficientemente satisfactorias.
Minería de Datos / Data Mining
Ejemplo de aplicación
Supongamos que el 70% de las personas que compran el producto X usando una
tarjeta de crédito también compran el producto Y, y que el producto Y nunca se
vende independientemente. Resulta entonces relativamente fácil construir un
modelo que ayude a predecir la compra del producto Y con una ocurrencia del
70%. Por supuesto, será de mucho mayor interés poder predecir las compras del
producto X.
120