Ing.
Andrs Eyherabide
@aeyherabide
[Link]
Posgrado BI UTN - Introduccin al Data Mining
Que es Datalytics?
Fundada en el ao 2007, Datalytics es una empresa de servicios profesionales
independiente, orientada exclusivamente a las prcticas de:
Data Integration
Business Intelligence
Data Mining
Oficinas en las ciudades de Buenos Aires y Rosario (ARG) y Medelln (COL).
Equipo de trabajo interdisciplinario, con +30 profesionales de diversas reas.
Implementaciones en Argentina, Chile, Brasil, Colombia, Espaa y USA.
Nuestros servicios incluyen la consultora, capacitacin, implementacin y el apoyo
necesario para asegurar una solucin exitosa que soporte los procesos de negocios.
Datalytics ha certificado su Sistema de Gestin de calidad para la Provisin de Servicios
de Business Intelligence y Data Mining bajo la norma ISO 9001:2008 por Bureau
Veritas. Recertificacin Septiembre 2012 aprobada.
Introduccin
Data Mining es la exploracin y el anlisis, por medios automticos o semi-automticos,
de grandes volmenes de datos con la finalidad de descubrir reglas y patrones
significativas.
El objetivo es brindar informacin al negocio asistiendo a las empresas a mejorar sus
operaciones por medio de un mayor entendimiento de su entorno:
Que clientes es ms probable que acepte una oferta?
Que cliente tiene mayor probabilidad de dejar de pagar?
Que cliente tiene alta probabilidad de pedir la baja del servicio?
Que demanda puedo esperar de mis productos para el prximo trimestre?
Estos anlisis se basan en que los datos pasados sirven para predecir el futuro.
La calidad de los datos y el conocimiento del negocio son crticos en el anlisis.
Los datos deben ser entendidos como un activo que le permitir a las organizaciones
diferenciarse proporcionando proporcionar ms y mejores servicios.
Por que minar datos?
Enormes volmenes de datos estn siendo recolectados y almacenados minuto a minuto:
Datos generados en la nube, redes sociales.
Compras en negocios con diversos departamentos: e-commerce, tiendas virtuales,
etc.
Transacciones bancarias / Tarjetas de Crdito.
Machine generated data: sensores, web logs, etc.
Frecuentemente hay informacin oculta en los datos que no es directamente evidente a
los ojos de un analista, o simplemente es tal el volumen de informacin que nunca llega a
ser analizada.
El GAP entre el volumen de informacin y el nmero de analista crece exponencialmente.
La presin competitiva es cada vez mayor, y los datos deben ser entendidos como un
activo que le permitir a las organizaciones proporcionar ms y mejores servicios, predecir
eventos futuros, anticiparse a ellos, etc.
El ciclo de vida de los datos
Data Mining
Datos
Transaccionales
Operacionales
Demogrficos
Financieros
Econmicos
Gubernamentales
Asociaciones
Informacin
Extraccin,
transformacin y carga
Limpieza y calidad
Almacenamiento
Acceso en tiempo y forma
Transformar datos en informacin
Conocimiento / Accin
Programas
de retencin
Optimizacin acciones de MKT
Anlisis de riesgo y rentabilidad
Deteccin de fraudes
Que NO es Data Mining?
No es un producto de SW que se compra sino una disciplina que debe ser dominada.
No es una solucin mgica ni mucho menos instantnea a los problemas de negocio.
No es un fin en s mismo, sino un proceso.
No es un dogma de fe, es una disciplina con sustento matemtico y estadstico.
Algunos ejemplos de lo que NO es Data Mining:
Buscar en una base de datos todas las personas mayores a 20 aos que viven en Medelln y no
han cursado estudios universitarios.
Determinar la bebida gaseosa ms vendida en cada departamento.
Armar el forecast de ventas para el prximo ao fiscal basado en polticas y reglas del negocio
(por ejemplo, ventas * 1,17).
Que SI es Data Mining?
Determinar la probabilidad de que un cliente solicite la baja de su servicio en los
prximos 3 meses.
Determinar que clientes son ms propensos a responder afirmativamente a una
determinada accin de MKT con una oferta determinada.
Antes de otorgar un prstamo, determinar la probabilidad de que esa persona no pueda
hacer frente al pago del mismo en tiempo y forma, cayendo en mora.
Segmentar nuestra cartera de clientes para encontrar grupos de clientes con
caractersticas de comportamiento similares.
Analizar el comportamiento de compras de nuestros clientes para la confeccin de
ofertas de productos.
Donde encaja Data Mining?
DW
ETL
OLAP & Reporting
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML
Archivos Planos
FTP
Web Logs
Pentaho,
Oracle/Hyperion,
Microstrategy,
SAS, Etc.
Extract
Transform
Clean
Load
Datastage
Informatica
Oracle DI
Pentaho DI
SAS DIS
Etc.
DW
ODS
Oracle
IBM DB2
SQL Server
Teradata
Sybase IQ
Etc.
Data Mart
Data Mining
SAS, SPSS,
Rapid Miner
Metodologas de Trabajo
1. Conocimiento del Negocio
Objetivos / Entorno
Supuestos, restricciones, riesgos y
contingencias
Definir anlisis a realizar
2. Conocimiento de los datos
Recoleccin y entendimiento de los datos.
Exploracin, evaluacin de la calidad
3. Preparacin de los datos
6. Implementacin
Desarrollo de plan de
implementacin
Auditora de implementacin
Mantenimiento
5. Evaluacin
Evaluar e interpretar resultados
Auditar el proceso
Definir prximos pasos
Seleccin, limpieza ,
personalizacin y agregacin
de los datos
4. Anlisis & Modelado
Definir la tcnica ms
adecuada de Data Mining
Desarrollo del modelo /
solucin
Orgenes del Data Mining
Extrae ideas de Aprendizaje Automtico (machine learning/AI), pattern recognition,
estadstica y sistemas de bases de datos.
Las tcnicas tradicionales pueden ser inadecuadas debido a:
Gran volumen de datos
Alta dimensionalidad de los datos
Naturaleza heterognea y distribuida de los datos
Estadstica
DM
Bases de
Datos
Int.
Artificial
Orgenes del Data Mining
Data Mining y la Estadstica:
Los mtodos estadsticos son la base de muchas de las tcnicas de minera de datos.
Originalmente muchas de estas tcnicas fueron diseadas con propsitos confirmatorios.
La estadstica exploratoria aparece en los 70 con los aportes de J. Tuckey.
En DM no se hacen supuestos a priori sobre la naturaleza de las variables y de las relaciones
entre ellas.
Los algoritmos estadsticos fueron adaptados para el procesamiento de grandes volmenes de
datos.
Data Mining y la Inteligencia Artificial:
La Inteligencia Artificial se integra al DM a partir de las redes neuronales artificiales.
Se utilizan para construir modelos predictivos no lineales que aprenden a travs de
entrenamiento y que se asimilan a los modelos de redes de neuronas biolgicas.
Predictivos
Redes Neuronales
Regresiones Logisticas
Series de Tiempo
Clusters
Arboles de Decision
Promedios Mviles
Distribuciones
Varianza
Desvo Standard
Anlisis Multivariados
Tablas de Contingencia
Correlaciones
Rankings, Percentiles, etc.
Inteligencia (Valor Agregado)
Data Mining
Regresiones Lineales
Descriptivos
Tipos de Anlisis del Data Mining
Procesos de Modelado Predictivo
Actualidad
Datos Histricos
Horizonte
Prediccin
Datos Histricos
Entrenamiento y
Validacin
Horizonte
Prediccin
Corrida real
Modelado: Tipos de Variables
Var. Descriptivas
Var. de Clase
/ Target
Entrenamiento
En base a informacin histrica
se generan distintos modelos
Clasifica
Modelo
Entrenamiento del Modelo
Datos de
entrenamiento
Sexo
Edad
Estado
Civil
Ingreso
Anual
$
Credito
#
Cuotas
Mora
24
Casado
120K
20K
Si
36
Casado
240K
34K
12
No
28
Casado
180K
60K
Si
32
Soltero
120K
12K
No
29
Soltero
134K
56K
12
No
46
Casado
182K
128K
14
No
34
Soltero
227K
134K
Si
44
Casado
132K
240K
12
No
Construir y entrenar
el modelo
Y luego predecir
Sexo
Edad
Estado
Civil
Ingreso
Anual
$
Credito
#
Cuotas
Mora
29
Casado
134K
27K
46
Casado
182K
41K
12
34
Casado
72K
26K
10
44
Soltero
152K
42K
Resumen de Modelado
Preparacin Datos
Definicin de Set de Datos
Tratamiento de Valores
Missing
Divisin de Poblacin
Training Validacin Test
Deteccin de Outliers
(errores)
Preseleccin de Variables
Anlisis Exploratorio
Personalizacin de Variables.
Transformacin de Variables
Buscar patrones
(multivariados)
Desarrollo
Construccin de
Modelo
Evaluacin del
Modelo
Implementacin
Construccin de un
Score
Presentar Resultados
Scoring
Anlisis Desriptivo: Clustering
Dado un conjunto de objetos de dato (puntos), cada uno con un conjunto de variables y
una medida de similitud entre ellos, hallar clusters/segmentos tal que:
Los objetos en un cluster son ms similares entre s.
Los objetos en clusters separados sean lo ms distintos posibles entre s.
Minimizar la distancia intracluster
Maximizar la distancia intercluster
Clustering: Segmentacin de Mercado
Una segmentacin muy conocida de clientes es la segmentacin RFM:
Recency: cuando fue la ltima vez que compr?
Frequency: cuantas veces compr?
Monetary Value: cuanto dinero gast?
En base a estas 3 variables, podemos segmentar nuestros clientes de acuerdo a su
comportamiento de consumo.
Caso real: el 78% de la facturacin se concentra en el cluster A (27% de los clientes). Los
clientes de este cluster son personas casadas, con hijos, trabajadores autnomos con
ingresos superiores a $ 10.800.
Anlisis Predictivo: rboles de Decisin
Dado un conjunto de registros, Cada registro se define por un conjunto de variables,
siendo una de ellos la clase (tambin llamada target).
Objetivo: hallar un modelo para determinar la variable target como una funcin de los
valores de las otras variables.
El training set se usa para determinar la precisin del modelo. Usualmente, el conjunto
de datos dados se divide en training y test sets, con el training set usado para construir el
modelo y el test set usado para validarlo.
Desafo: el modelo debe ser capaz de generalizar. Es decir: determinar de manera
aceptable la variable target para registros desconocidos y nuevos casos.
Anlisis Predictivo: rboles de Decisin
Beneficios:
Fcil Interpretacin e implementacin
Las ramas del rbol definen directamente las reglas de asignacin
Los resultados son operativos de forma inmediata
Minimiza el pre-tratamiento de los datos (no hay problema de outliers)
Antigedad cliente
% Saldo Financiado
Respuesta: 65%
% Utilizacin
ltimos 3 meses
Respuesta: 35%
10 -60%
Respuesta:5%
Respuesta: 13%
Respuesta:47%
Respuesta: 5%
Respuesta:30%
Caractersticas de modelos Predictivos
Tcnicas de
Modelizacin
rbol de
Decisin
Regresin
Logstica
Regresin Lineal
Tipo de Variable
Target
Discreta
Discreta
Continua
Tipo de
prediccin
Discreta
Continua
Continua
Continua
Poder de
Prediccin
Regular
Bueno
Bueno
Muy Bueno
Rapidez de
Modelizacin
Rpido
Mediano
Mediano
Mediano
Facilidad de
Interpretacin
Fcil
Mediano
Mediano
Difcil
Manejo de
Valores Missing
Muy Bueno
Regular
Regular
Regular
Robustez ante
outliers
Muy Bueno
Bueno
Bueno
Bueno
Red Neuronal
Continua y
Discreta
Presentacin Caso de Negocio
Compaa financiera fundada en 2003, una de las ms especializadas del mercado de
Factoring.
Presencia en Estados Unidos y Latinoamrica, bajo cuatro Unidades de Negocios y seis
reas de Servicios Corporativos, con un equipo de 110 personas (24 ejecutivos).
Promotores de la legislacin que favorece la unificacin de la factura como ttulo valor
con libre negociabilidad.
La empresa cuenta con diferentes productos, con una cartera de clientes que supera los
1.500 (62,5 clientes en promedio por ejecutivo de cuentas!).
Para maximizar el valor de la compaa, la empresa debe invertir en aquellos clientes que
le generan una mayor rentabilidad (visin a corto plazo), pero para mantener ese
crecimiento la empresa debe establecer (y mantener!) relaciones con aquellos clientes
que le aseguren una relacin estratgica a lo largo del tiempo.
Quien es quien?
La compaa decidi llevar adelante un proceso de segmentacin de clientes basada en
modelos de minera de datos, y alinear la estrategia comercial de la compaa a dicha
segmentacin.
Por su tiempo de implementacin acelerado y la facilidad para interpretar los resultados,
se recurri a una segmentacin basada en el comportamiento denominada RFM:
Recency, Frequency, Money Value.
Definiciones previas:
Cliente activo: al menos 1 negocio en los ltimos 180 das.
Cliente inactivo: sin negocios en los ltimos 180 das.
Cliente recurrente: ms de 1 negocio.
Principales mtricas usadas:
Cantidad de Negocios (frecuencia y recurrencia).
Total Valor $, Valor $ Promedio (money value)
Fecha ltimo Negocio (status), Fecha de primer Negocio (fidelidad).
Anlisis Exploratorio
Activos vs. Inactivos y Recurrencia
# Clientes Activos = 70,31% del total de cuentas desde el 2010
# Clientes Activos no Recurrentes = 5,74%
# Negocios Clientes Activos = 5,37%
Valor $ (Millones) Clientes Activos = $ 150.940,65 (85,49%)
# Clientes
Valor $ (Millones)
# Negocios
5%
14%
30%
Activos
Activos
Activos
Inactivos
Inactivos
Inactivos
70%
95%
85%
VADs Activos
Fidelidad vs. Status
Estrategia de Segmentacin
Segmentar por $ Valor (4 segmentos):
Segmentar por Fidelidad y Actividad (4 segmentos):
Cruzar ambos segmentos, y fusionar segmentos poco significativos.
Resultado Final
Resultado Final
0 En desarrollo: valor $ medio y bajo, poco # de operaciones y siempre con -150 das
desde el primer negocio. Se destaca un pequeo subgrupo de mayor valor $ y # negocios.
Ej.: T3 Textiles S.A.S.
1 Valor Bajo: clientes con +150 das de antigedad, pocos negocios y bajo valor $. Ej.:
MetalPlastics S.A.S.
2 Valor Medio: clientes con +150 das de antigedad, mayor # negocios y valor $ medio.
En algunos casos, montos promedios importantes. Ej.: Industrias Bitor Ltda.
3 Prometedores: muy similar al segmento 2 (Valor Medio) pero tienen menor
antigedad por lo que tienen mayor potencial para desarrollarse y convertirse en cuentas
de Alto Valor o inclusive Premium. Ej.: Agroindustria Uve S.A.
4 Valor Alto: clientes con +1 ao de antigedad, importante # negocios y valor $ Alto.
Ej.: C.I. Agrodex S.A.
5 Premium: similar al segmento de Valor Alto, pero con mayor valor $. Ej.: Centurion
Foods S.A.S.
El Minero
Es el vnculo entre las reas de tecnologa informtica y las reas de negocios.
Traduce los requerimientos de informacin en preguntas apropiadas para su anlisis con
las herramientas de minera.
Realimenta el Data Warehouse de la compaa con los resultados de sus modelos. Por
ejemplo: segmento de cliente, score, canal de comunicacin ms efectivo, etc..
Habilidades:
Fuerte enfoque analtico con visin de negocio. No debe perder de vista el objetivo!
Conocimientos de estadstica avanzada.
Conocimiento de tcnicas de minera y anlisis exploratorio.
Conocimiento de tcnicas de manipulacin de datos (SQL u otros).
Pero por sobre todo curiosidad y creatividad.
Y paciencia...
Desafos
El 80% de los esfuerzos de un proyecto de Data Mining se destinan a tareas de ETL.
El resultado de DM es mayor conocimiento, pero ese conocimiento debe ser analizado y
puesto en prctica por los usuarios.
La calidad de los modelos esta directamente relacionado con la calidad de los datos.
Problemas con los datos:
Pocos datos
Poca historia
Ruido, valores anmalos
Valores incompletos
Eficiencia y escalabilidad de algoritmos de Data Mining.
Y por ltimo pero no menos importante
BIG DATA
Que es BIG DATA?
Big Data es el nombre que se le da a conjuntos de informacin que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
mtodos o tcnicas tradicionales del mundo de base de datos relacionales.
Generada principalmente por la web 2.0, redes sociales, aplicaciones y dispositivos
mviles, machine generated data (logs, sensores, etc.) pero tambin sist. transaccionales.
Big Data son tres Vs y una C:
Velocidad: los datos se generan a un ritmo exponencial.
Volumen: la irrupcin de Big Data dej en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
Complejidad: volumen de datos tal que no
permite procesarlo con tcnicas tradicionales
El desafo de BIG DATA
40
LOS DATOS SE
DUPLICAN CADA 2 AOS
80%
DE LA INFORMACIN ES NO
ESTRUCTURADA
35
30
(Gartner, December 2011)
ZB
25
20
LAS EMPRESAS MANEJARN
50X MS DATOS
15
10
5
EN LA PRXIMA DCADA
2005
2010
2015
2020
(IDC Digital Universe Study, June 2011)
0
(IDC Digital Universe Study, June 2011)
El aumento exponencial en la cantidad de informacin disponible ha hecho
que las empresas recurran a nuevas herramientas y procesos para recopilar
datos (tanto estructurados como no estructurados) y para almacenar,
administrar, manipular, analizar, e integrar datos.
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Muchas Gracias!