INSTRUCTOR: César Valencia
➢ Ingeniero de Sistemas de la Universidad Nacional de Ingeniería (UNI) con experiencia
en gestión de la información y Analytics.
➢ Especialista de Predictivos en Mercado y Marketing Empresas en Entel Perú.
➢ Analista de Analytics en Wealth Management en Scotiabank.
➢ Capacitador de Python en Automatización de Procesos en Scotiabank.
➢ Analista de Advanced Analytics & Big Data en Interbank.
➢ Participación directa en proyectos transformacionales de información (DataWarehouse
& Big Data) usando Scrum en Interbank.
➢ Cofundador del grupo UDSC (UNI Data Science Community) y coordinador de
Analytics para el voluntario Crea+.
PRESENTACIONES
➢ Nombre
➢ Estudios/Experiencia Laboral
➢ ¿Por qué te interesa Machine Learning?
Acerca del Machine Learning
Cada vez un mayor volumen de datos se sigue generando en las organizaciones y se requiere de ciertas capacidades
y habilidades para poder identificar patrones ocultos en todo este mar de datos y así lograr predecir comportamientos o
eventos futuros mediante un aprendizaje automático.
Las aplicaciones del Machine Learning (ML) son muy diversas y amplias como: pronosticar la fuga de clientes,
prevención de fraudes, segmentación de clientes, sistemas de recomendación, reconocimiento de patrones en imágenes,
voz y vídeo, análisis de sentimientos, diagnósticos médicos, programas informáticos de inteligencia artificial, entreotros.
En este curso adquirirás los conocimientos, habilidades y técnicas para el análisis de datos y el desarrollo de modelos
predictivos. Conocerás al detalle cada fase del proceso de construcción de un modelo de Machine Learning y cómo
identificar el valor generado de su puesta en producción.
Conocerás Python como una de las herramientas más fáciles de utilizar para aplicar Machine Learning a casos reales y
aplicativos.
Al final del curso tendrás la oportunidad de presentar y sustentar un proyecto final para consolidar los conocimientos
adquiridos durante las sesiones poniéndote a prueba en un escenario competitivo.
¿Qué aprenderemos?
Módulo 1: Módulo 3: Módulo 5: Módulo 7:
Introducción alMachine Entendimiento y Construcción y Tópicos Adiciones
Learning Preparaciónde Datos Evaluación deModelos
- Aprenderemos los conceptos, - Aprenderemos las definiciones - Aprenderemos a construir los - Revisaremos ciertos tópicos
tipos y aplicaciones de ML. claves dentro delML. distintos modelos utilizando los complementarios relacionados
- Una revisión general de las - Cómo realizar un buen análisis algoritmos de ML supervisados y no al campo del Machine Learning
Fases para el Desarrollo de un exploratorio y tratamiento de supervisados. como Procesamiento del
Modelo deML. datos para descubririnsights. - Estudiaremos las distintas técnicas Lenguaje Natural, Sistemas de
de validación y optimización de Recomendación y Deep
modelos. Learning.
Módulo 2: Módulo 4: Módulo 6:
Librerías dePython Selección de Variablesy Ensamblado deModelos
Balanceo deDatos
- Revisaremos la sintaxis de Python, - Aprenderemos técnicas de - Aprenderemos qué son modelos
funciones y tipos de estructuras de balanceo de datos, selección de ensamblados, los tipos que existen
datos principales. variables más importantes y cómo y cómo estas técnicas nos permiten
- Aprenderemos a utilizar las librerías definir la mejor forma de dividir los obtener un mejor poder predictivo.
de Python para el tratamiento y datos para el entrenamiento y
análisis de datos. validación delmodelo.
Módulo 1:
Introducción al
Machine Learning
¿Qué es Machine Learning?
ARTIFICIAL INTELLIGENCE
MACHINE LEARNING
Simulación de los procesos de la
Inteligencia humana por máquinas. Campo de estudio que le da a los sistemas
Esos procesos incluyen: la habilidad de aprender algo sin ser
aprender, razonar, etc. explícitamente programadas.
¿Qué es Machine Learning?
Aplicaciones
✓ Segmentación de clientes potenciales
✓ Pronóstico de fuga de clientes
✓ Detección de fraude
✓ Scoring de Riesgos
✓ Sistemas de Recomendación
✓ Análisis de Sentimientos
✓ Reconocimiento de imágenes, voz, video.
✓ Detección de intrusos en redes
✓ Detección temprana de enfermedades
Tipos de Aprendizaje
Aprendizaje Supervisado
Los algoritmos de aprendizaje supervisado se entrenan usando ejemplos etiquetados, a fin
de predecir una etiqueta en base a un conjunto de características.
Si la etiqueta es categórica es llamada problema de clasificación, y si es continua, problema
de regresión.
Clasificación Regresión
Aprendizaje No Supervisado
¿Qué pasa si no se cuenta con data histórica?, es decir sólo se cuenta con las
características.
El objetivo es encontrar patrones en los datos y encontrar una estructura.
¿Cuántos Clústers? 6 Clústers
2 Clústers 4 Clústers
Aprendizaje
Aprendizaje Supervisado No Supervisado
K - Medias
Clustering
Regresión Logística
K - Prototipos
Vecinos más cercanos K - Modas
Clasificación
Regresión Lineal
Regresión
K – Medoids
Bayesiana
Árboles de Decisión Jerárquico
Máquina de Soporte Vectorial
Métodos Ensamblados
Árboles de Decisión
Redes Neuronales
Ensamblados de Árboles
Redes Neuronales
Actividad
En grupos de 2, busquemos otros
ejemplos y aplicaciones de
aprendizaje supervisado y no
supervisado.
Fases de Desarrollo de un Modelo de ML
Datos de Prueba
Adquisición de Ingeniería de Datos de Evaluación de
Entrenamiento
Datos Variables Entrenamiento Modelos
Ajuste de Hiper
Parámetros
Despliegue del
Modelo
Métricas de Evaluación de Clasificación
Training vs Testing Metric
¿Ensamblar Modelos?
Ensamblado – Promedio Ponderado
LightGBM_10
CV:0.972421
LB PRIV: 0.97384
PUB:0.97447
x 5/8
XGB_19
x 1/8 CV: 0.973982
CV:0.972767 PRIV: 0.97460
LB PRIV: 0.97414 PB: 0.97488
PUB:0.97440
x 2/8
LightGBM_26
CV:0.973760
LB PRIV: 0.97444
PUB:0.97437
Métodos Ensamblados
Medición de Resultados
Resultados Modelo de Propensión de Compra
RT Ingr/Costos Indicadores por decil % Ingresos
100 91.22 100%
98.3% 98.4% 99.0% 99.5% 99.7% 100.0%
95.7%
80 90%
89.9%
86.8%
60 80%
40 70%
69.0%
17.68
20 60%
9.93
5.26
2.00 0.97 0.87 0.46 0.22 0.58
0 50%
1 2 3 4 5 6 7 8 9 10 Nro Decil
RT Conversión % Ingresos
Se dividió la base por deciles según los resultados del modelo. Los primeros 5 grupos generaron el 98% de los ingresos
totales de la campaña feb-17.
Caso Práctico
en Python