Técnicas Avanzadas de
Análisis de Datos
Introducción a la
Minería de Datos
• Hernandez Orallo J. Introducción a la minería de
datos. Cap.1 y 2.
• Witten I et al. Data Mining: Practical Machine
Learning Tools and Techniques. Cap. 1 y 2.
Contenidos
Definiciones, ejemplos
Tipos de conocimiento
Proceso de
descubrimiento de
conocimiento
Tipos de modelos
Tareas y técnicas de
minería de datos
Software
Montones de datos
• Generan enormes cantidades de datos: • Tecnologías para recoger y
• Bancos, transacciones comerciales... almacenar datos
• WWW: portales, redes sociales, etc. • Códigos de barras, scanner, satélites,
• Comercio electrónico cameras etc.
• Simulaciones científicas: experimentos en • Bases de datos, almacenes de datos,
biología y otras ciencias variedad de repositorios
• Datos médicos
• Videos e imágenes de vigilancia,
• Satélites
• Otros ….
Muchos datos
• La información histórica es útil para explicar el pasado,
entender el presente y predecir la información futura.
• En muchas situaciones, convertir los datos
en conocimiento consiste en análisis e
interpretación en forma manual.
• La abundancia de datos desborda la
capacidad humana de comprenderlos sin
ayuda de herramientas
• Minería de datos: resolver problemas analizando los datos
presentes, frecuentemente, en las bases de datos
¿Conocen estos conceptos?
Machine
Learning
Data
Mining
Deep
Learning Data
Science
Big Data
Data
Analysis
Inteligencia Artificial robótica, procesamiento de
lenguaje natural, recuperación de información, visión
artificial y aprendizaje automático.
Aprendizaje automático desarrollar algoritmos
que puedan aprender de los datos históricos y
mejorar con la experiencia.
Aprendizaje profundo aprender representaciones de datos
con múltiples niveles de abstracción. Extrae automáticamente
características de alto nivel de datos complejos.
Ciencia de datos estudia todo lo relacionado con los
datos: adquisición, almacenamiento, análisis, limpieza,
visualización, interpretación, toma de decisiones Minería de datos comprender y descubrir
basada en datos, determinación de cómo crear valor a nuevos conocimientos nunca antes vistos en los
partir de los datos y cómo comunicar conocimientos. datos aplicando algoritmos para extraer patrones
relevante para el negocio de los datos.
[Link]
Y qué es …?
Analista
de datos
Ingeniero
de datos
Científico
de datos
Analista de datos recopilar datos, interpretar la
información, generar informes significativos.
Ingeniero de datos desarrolla y mantiene la arquitectura de datos.
Responsable de mantener sistemas escalables, con alta disponibilidad y
rendimiento.
Científico de datos realiza análisis estadísticos avanzados y
tiene conocimientos de machine learning. Objetivo identificar
patrones en datos estructurados y no estructurados
[Link]
[Link]
[Link] 330/alemania-utiliza-bigdata-para-ganar-el-mundial-de-rusia
412/16/[Link]
[Link]
[Link]
[Link]
publicidad-ventas-y-fidelizacion/
[Link]
datamining-mineria-datos-7148734
¿Qué es la minería de datos?
Proceso para encontrar patrones, relaciones, tendencias o
reglas que expliquen el comportamiento de los datos
disponibles en base de datos
Los patrones descubiertos deberían ayudar a tomar decisiones
más seguras que reporten beneficio a la organización
Integración de tecnologías/disciplinas
Inteligencia
Aprendizaje Artificial
automático
Gestión de
bases de
datos Estadística
Algoritmos Visualización
Minería
de Datos
Datos, información y conocimiento
Información:
Conocimiento:
Datos procesados y que
Explicación o interpretación
tienen significado
de información (comparación,
búsqueda de relaciones, etc.)
Datos:
Conjunto de valores discretos
Ejemplo
● Dato
o productos comprados
● Información
o clientes compran snacks
o clientes compran golosinas
● Conocimiento
o De los clientes que compran
snacks, el 66% compran golosinas
Proceso de Interpretación/
Evaluación
Conoci
Minería de
descubrimiento datos
miento
de Preprocesamiento
Patrones
conocimiento Selección
en bases de Datos
preprocesados
datos
datos Target
datos
Adaptado de U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An
Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.),
AAAI/MIT Press
Descubrimiento del conocimiento
Knowledge Discovery in Databases (KDD)
• nombre técnico con que se denomina al proceso global de
extracción de conocimiento de bases de datos
• Es un proceso interactivo e iterativo
• Implica la preparación, selección y limpieza de datos
• Se utiliza para extraer datos de grandes volúmenes de datos
• Se utiliza para identificar válidos, novedosos, potencialmente
útiles y comprensibles a partir de los datos
Descubrimiento del conocimiento
Las propiedades deseables del conocimiento extraído:
● Válido: los patrones encontrados deben seguir siendo precisos
para datos nuevos
● Novedoso: que aporte algo desconocido tanto para el sistema
como para el usuario
● Potencialmente útil: la información debe reportar algún
beneficio para el usuario
● Comprensible: posibilita la interpretación, revisión, validación y
toma de decisiones
Aprendizaje automático
• El aprendizaje automático (machine learning) es un campo
de la inteligencia artificial
• Automatiza la construcción de modelos analíticos: algoritmos
que aprendan de datos, identifiquen patrones
• Dos formas de aprendizaje (más populares):
Aprendizaje supervisado Aprendizaje no supervisado
Los algoritmos se entrenan con Los datos de no tienen etiqueta. El
ejemplos etiquetados objetivo es explorar los datos
Ej. Clientes que aceptarían préstamos Ej. Grupo de empleados
Etiqueta
Tipos de Modelos
Modelos:
• Predictivos: estiman valores futuros o desconocidos A. Supervisado
de variables de interés (dependientes) usando otras
(independientes o predictivas)
Ejemplo: Estimar la demanda de un nuevo producto en
función del gasto en publicidad
• Descriptivos: exploran las propiedades de los datos A. No Supervisado
para explicar o resumirlos
Ejemplo: Determinar grupos de viajeros con intereses
similares
Tareas de MD
Una (un tipo de) tarea de MD es un (tipo de) problema de MD.
Ej. “clasificar los clientes en morosos y no morosos” es una tarea
Clasificación: asignar una clase a nuevos registros
Predictivas
Regresión: asignar a cada registro un valor real
Agrupamiento: obtener grupos de registros
Descriptivas
Asociación: identificar relaciones entre atributos
Técnicas de MD
Una tarea de MD requiere métodos, técnicas o algoritmos para resolverlas.
Tareas
Técnicas
Hernandez Orallo. Introducción a la minería de datos
Ejemplos
Haga clic para modificar el estilo de título del
Ejemplo 1 : Bancopatrón
• Objetivo del negocio: Ofrecer más préstamos
• Datos: Registros de clientes que han recibido una
oferta de préstamo
• Clientes que la rechazaron
• Clientes que la aceptaron
• Objetivo/Tarea de MD?
Ejemplo 1: Banco
Encontrar reglas que predicen si un cliente va a
responder a una oferta de este préstamo
Ej.
SI (Salario < 40k) y
(numHijos > 0) y
(edadHijo1 > 18 y edadHijo1 < 22)
ENTONCES SÍ
…
Modelo predictivo
Reglas de decisión/clasificación
Haga clic para modificar el estilo de título del
Ejemplo 2: Supermercado
patrón
• Objetivo de negocio: mejorar el servicio, aumentar ventas
• Datos: Registros de productos adquiridos en cada compra
Id Huevos Aceite Pañales Vino Leche Manteca Lechuga ….
1 si no no si no si si …
2 no si no no si no si …
3 no no si no si si si …
4 no si si no si no no …
… … … … … … … … …
• Objetivo/Tarea de MD?
Ejemplo 2: Supermercado
Encontrar asociaciones entre productos
Ej.
El 100% de las veces que se compran pañales también se
compra leche
El 50% de las veces que se compran huevos también se
compra aceite
El 33% de las veces que se compra vino y manteca también
se compra lechuga
Analizar cuáles de estas asociaciones
son frecuentes (y útiles)
Modelo asociación
Reglas de asociación
Haga clic para modificar el estilo de título del
Ejemplo 3: Empresa
patrón
• Objetivo de negocio: entender la situación de los
empleados y ofrecerles beneficios
• Datos: Información sobre los empleados
Ejemplo 3: Grupos de empleados
Encontrar grupos entre los empleados (podrían ser
interpretados por el departamento de recursos humanos)
Ej.
✔ Grupo1: sin hijos y con vivienda de alquiler. Baja
participación sindical. Muchos días de baja.
✔ Grupo 2: sin hijos y con coche. Alta participación sindical.
Modelo
Pocos días de baja. Normalmente son mujeres y viven en agrupamiento
casa de alquiler.
✔ Grupo 3: con hijos, casados y con coche. Clusters
Mayoritariamente hombres propietarios de su vivienda.
Baja participación sindical.
Tareas predictivas o descriptivas?
Regresión Agrupamiento
Clasificación Asociación
Identificar las transacciones
Identificar elementos que son con tarjetas de crédito como
comprados juntos por un número legítimas o fraudulentas
suficientemente grande de clientes
Proyectar las ventas de un Dividir a los clientes con
nuevo producto basado en intereses similares
gastos de publicidad
¿Son interesantes todos los patrones
“descubiertos?
• La MD puede generar miles de patrones: no todos interesantes
• Un patrón es “interesante” si
• es fácilmente comprensible por las personas
• válido sobre datos nuevos o de prueba con cierto grado de certeza,
• potencialmente útil, novedoso,
• o valida alguna hipótesis que el usuario quiere confirmar
• Medidas de interés objetivas vs. subjetivas
• Objetivas: basada en estadística y en la estructura de los
patrones, ej. soporte, confianza, etc.
• Subjetivas: basadas en lo que el usuario piensa de los datos,
ej. inesperados, novedosos, útiles para tomar decisiones, etc.
Software para
ciencias de datos
¿Por qué usar Rapidminer?
● Variedad de herramientas para la preparación de datos, la creación
de modelos predictivos y la evaluación de su rendimiento
● Análisis estadísticos de los datos
● Interfaz gráfica intuitiva: arrastrar y soltar operadores, sin
necesidad de escribir código.
● Integración de diversas fuentes de datos
● Análisis de grandes volúmenes de datos
● Comunidad de usuarios y desarrolladores
[Link]
Descarga e instalación: [Link]