Data Mining & Big Data
El curso de posgrado de Data Mining & Big Data (DMI) le brinda al participante informacin y prctica
suficiente para implementar aplicaciones de descubrimiento de conocimiento a partir de los datos
recolectados y almacenados en su organizacin.
Participantes:
El curso se dirige a profesionales de la ingeniera y tcnicos que participan de los procesos
relacionados con el diseo de productos y procesos, la planificacin de la produccin, el control, el
mantenimiento de activos, la gestin ambiental, as como todas aquellas actividades del negocio
factibles de identificar, capturar y gestionar conocimiento, a profesionales de reas staff
relacionados con las anteriores y consultores de empresas.
Objetivos del curso:
1. Presentar de manera sistemtica las tcnicas y herramientas que permiten analizar
grandes cantidades de datos y descubrir relaciones ocultas pero presentes en ellos de
manera de contribuir con nueva informacin al proceso de toma de decisiones y
prediccin de fenmenos futuros.
2. Capacitar en la aplicacin y el uso de las tcnicas y herramientas necesarias para
desarrollar modelos de minera de datos de manera que el participante, luego de haber
terminado el curso, est en condiciones de aplicarlos en su tarea diaria.
3. Aplicar los contenidos aprendidos en casos de aplicacin relacionados con las disciplinas
de la ingeniera de cada participante o en casos simulados presentados por el docente:
produccin, mantenimiento, medioambiente, logstica, diseo industrial, desarrollo de
software, marketing.
Cronograma:
MDULO MODALIDAD CARGA
HORARIA
Introduccin a la minera de datos 7
Seleccin y pre-procesamiento de datos 5
Clasificacin 20
Clustering 5
Mtodos avanzados 5
Casos de aplicacin de Data Mining Online 10
8/5 al 24/7/17
Big Data & tendencias actuales 5
Trabajos Final Grupal 20
Demostracin de tecnologa actual y presentacin de 8
trabajos finales Presencial
Contenidos:
Mdulo 1: Introduccin a la minera de datos
Qu es y qu no es Data Mining?. Aplicaciones de la minera de datos en las organizaciones:
predicciones burstiles, marketing, deteccin de fraudes, patrones de fuga, produccin,
mantenimiento, logstica, ciencia. Introduccin a las herramientas de minera de datos: mtodos
predictivos y descriptivos. Tareas de Data Mining: clasificacin, agrupamiento (clustering),
descubrimiento de reglas de asociacin, descubrimiento de patrones secuenciales, regresin,
deteccin de anomalas.
Mdulo 2: Seleccin y pre-procesamiento de datos
Introduccin a los proyectos de inteligencia de negocios (Business Intelligence). Manejo de datos e
informacin. Bases de datos (Data Warehousing). Seleccin e integracin de datos. Pre-
procesamiento de datos: limpieza, integracin, transformacin, reduccin, y discretizacin de
datos.
Mdulo 3: Clasificacin
Ejemplos de problemas de clasificacin. Clasificadores perezosos (eager learners) y ansiosos (lazy
learners o instance learners). rboles de decisin. Clasificadores basados en reglas. Mtodos
bayesianos: Nave Bayesy Redes Bayesianas. Modelos lineales: regresin, regresin logstica.
Mquinas de soporte vectorial (Support Vector Machines). Redes Neuronales: perceptrn
multicapa. Vecinos ms cercanos. Implementacin de clasificadores con paquete de software libre
WEKA (Universidad de Waikato, Nueva Zelandia). Aspectos prcticos al implementar
clasificadores: sobreajuste, subajuste, valores faltantes, expresividad, evaluacin y comparacin
de modelos (mtricas y mtodos). Anlisis de casos.
Mdulo 4: Clustering
Aplicaciones del anlisis de clustering: descriptiva y sumarizacin. Clasificacin de de clusters:
jerrquico/particional, exclusivos/no-exclusivos, fuzzy/no-fuzzy, parcial/completo,
heterogneo/homogneo. Tipo de clusters: bien separados, basados en centros, contiguos,
basados en densidad, conceptuales, descritos por una funcin objetivo. Medidas de similaridad.
Algoritmos de clustering: vecinos ms cercanos, clustering jerrquico y basado en densidad.
Anlisis de casos.
Mdulo 5: Mtodos avanzados
Reduccin de la dimensionalidad. Anlisis de componentes principales. Anlisis de componentes
independientes. Redes neuronales aplicadas a la reduccin de la dimensin. Anlisis de casos.
Clasificadores de ensamble. Clasificadores basados en las tcnicas de boosting, bagging, stacking,
y aleatoriedad.
Mdulo 6: Casos de aplicacin de Data Mining
Introduccin al paquete de software libre R (R Foundation for Statistical Computing). Aplicacin
de los mtodos de regresin mltiple y regresin LASSO. Aplicacin de redes neuronales a un
proceso de negocios. Determinacin de las causas de falla empleando la metodologa de
Clustering. Aplicacin de la reduccin de dimensionalidad en un proceso industrial.
Mdulo 7: Big Data
Qu es Big Data? Gestin de grandes volmenes de datos Cmo trabaja Map-Reduce? Entorno
Open-Source de software para procesamiento y almacenamiento distribuido: Apache Hadoop.
Algoritmos de Data Mining en Big Data. Computacin iterativa distribuida. Entorno para el
procesamiento en cluster de computadoras: Apache Spark.
Mdulo 8: Trabajo final
El trabajo final se realiza en forma grupal y tiene como finalidad que los participantes apliquen los
conocimientos adquiridos durante el curso en la resolucin de problemas de casos reales de sus
organizaciones. Algunos trabajos presentados en ediciones anteriores:
Optimizacin del diseo de productos siderrgicos para el cumplimiento de
especificaciones de atributos cualitativos.
Optimizacin en el proceso de resolucin de siniestros de daos materiales en
automotores mediante el Sistema CLEAS.
Anlisis de datos antropomtricos del crneo humano: estrategias de clasificacin y
modelado.
Determinacin de la flota de equipos mineros ms eficiente para la extraccin de material
desde un determinado PIT en Santa Cruz.
Determinacin de reas inundadas a travs del uso de imgenes satelitales y fotografas
areas.
Aplicacin de tcnicas de Data Mining para la deteccin de operaciones sospechosas de
Lavado de Dinero.
Reduccin de tiempos en el proceso de cobranza de una empresa de venta de equipos de
informtica.
Reduccin de siniestros en una empresa de transporte pblico de pasajeros.
Segmentacin de compradores de camas nuticas en una guardera de lanchas.