1
DATA MINING
2023-2
Profesor: Luciano Silva Alarco
2
SESIÓN 01
Introducción
© Luciano Silva Alarco, 2023.
Curso del área de Innovación. Minería de Datos (IND345). Décimo ciclo.
Material de enseñanza. Lima: Pontificia Universidad Católica del Perú.
Profesor: Luciano Silva Alarco
3
!Bienvenidos!
Soy Luciano Silva Alarco
Estaremos viendo este ciclo 2023-2
aspectos teóricos y de aplicación de:
Data Mining.
Me pueden contactar al correo:
[email protected]Profesor: Luciano Silva Alarco
4
Evaluación
del Curso
“ Las reglas de juego ”
Profesor: Luciano Silva Alarco
5
Sistema de Evaluación
[2 𝑃𝑃𝑃𝑃 + 1 𝐸𝐸𝐸𝐸1 + 2 𝐸𝐸𝐸𝐸2 ]
𝑁𝑁𝑁𝑁 =
5
Donde,
𝐸𝐸𝐸𝐸1: Examen 1 (parcial) 𝑃𝑃𝑃𝑃: Promedio 5 Laboratorios
𝐸𝐸𝐸𝐸2: Examen 2 (final) 𝑁𝑁𝑁𝑁: Nota Final
Profesor: Luciano Silva Alarco
6
Sistema de Evaluación
6 𝐼𝐼𝐼𝐼 + 4(𝐸𝐸𝐸𝐸𝐸𝐸)
𝐸𝐸𝐸𝐸1 =
10
Donde,
𝐼𝐼𝐼𝐼: Informe Parcial 𝐸𝐸𝐸𝐸1: Examen 1 (parcial)
Viernes 13 de octubre del 2023 (18:30 a 21:30)
Exp: Exposición del Trabajo
Profesor: Luciano Silva Alarco
7
Sistema de Evaluación
6 𝐼𝐼𝐼𝐼 + 4(𝐸𝐸𝐸𝐸𝐸𝐸)
𝐸𝐸𝐸𝐸2 =
10
Donde,
𝐼𝐼𝐼𝐼: Informe Final 𝐸𝐸𝐸𝐸2: Examen 2 (final)
Viernes 1 de diciembre del 2023 (18:30 a 21:30)
Exp: Exposición del Trabajo
Profesor: Luciano Silva Alarco
8
Calendario de Laboratorios
Laboratorios: A y B
Laboratorio 1
Laboratorio: C
Laboratorio 2
Laboratorio: D
Laboratorio 3
Laboratorios: E, F y G
Laboratorio 4
Laboratorio: H
Laboratorio 5
Laboratorio: I
Profesor: Luciano Silva Alarco
9
Objetivos
del Curso
“ Resultados y competencias académicas ”
Profesor: Luciano Silva Alarco
10
Objetivos del Alumno
(sus objetivos)
¿Qué los motivó a llevar el curso? ¿Qué les gustaría aprender en el curso?
• La modalidad de laboratorio (ahora en sus casas) y del • Saber cómo aplicar mis conocimientos en álgebra lineal, en
aplicativo Orange, de R o de Python. estadística descriptiva e inferencial, en programación y en
• Aprender más sobre temas vinculados a la Inteligencia de diseño de sistemas para tomar decisiones tácticas y
Negocios (BI) y a conceptos relacionados a éste como: estratégicas con el uso de modelos cuantitativos.
Machine Learning (ML), Artificial Intelligence (AI), Deep • Aplicar conocimientos técnicos de preprocesamiento de datos
Learning (DL). y emplear algoritmos para reconocer patrones, clasificar
Big Data, Data Modeling, Data Visualization. etiquetas, agrupar datos y predecir valores.
Analytics, ETL, Programación (a nivel básico). • Aprender conceptos y herramientas adicionales de manera
opcional como:
• Aplicar conocimiento del curso a su trabajo de tesis, o en el
trabajo, o en otros proyectos de investigación. Sintaxis SQL, el uso de DBMS y Cloud Computing.
• Sin motivación, porque no se abrían otros cursos electivos, Otros lenguajes: Orange, R y Python.
o dentro de los que se abrieron este era el que mejor, y/o Estrategias de BI y automatización de modelos.
el más fácil, y/o el que mejor se acomoda a mi horario Competitividad analítica y transformación digital.
(estoy en último ciclo y no tengo tiempo). • Aprendizaje basado en Casos (ideales y reales).
Profesor: Luciano Silva Alarco
11
Objetivos del Curso
(formal)
• El aprendizaje de conceptos, técnicas, herramientas y métodos
necesarios para realizar Data Mining.
• Aplicación de estos a Casos Reales , en el ámbito de:
Los negocios o la industria.
El sector privado o público.
La investigación científica.
• Interpretación de resultados que faciliten la gestión de toma de
decisiones de negocios.
• Resolución de problemas o aprovechamiento de oportunidades a
partir del conocimiento obtenido a través de la aplicación de Data
Mining.
Profesor: Luciano Silva Alarco
12
Prerrequisitos
y Requisitos
“ Que se deberá dominar antes y/o durante el curso ”
Profesor: Luciano Silva Alarco
13
Prerrequisitos y Requisitos
• Académicos
Algebra Lineal (operaciones matriciales y manejo de propiedades).
Estadística Descriptiva.
Estadística Inferencial.
Programación a nivel básico (pseudocódigo).
Procesos de negocio a nivel básico (área de aplicación).
Idioma Inglés (medio, preferiblemente avanzado).
• Tecnológicos
Computadora o Laptop con el software: Orange instalado.
Profesor: Luciano Silva Alarco
14
Contenido
del Curso
“ Por capítulos, abierto a incluir temas de interés general ”
Profesor: Luciano Silva Alarco
15
Contenido del Curso
1. Introducción. 6. K-Vecinos más Cercanos.
2. Preprocesamiento de 7. Regresión Logística.
Datos. 8. Árboles de Clasificación y
3. Herramientas Gráficas. Regresión.
4. Análisis Discriminante. 9. Redes Neuronales.
5. Naïve Bayes. 10.Support Vector Machines*.
6. Examen Parcial 11.Análisis de Conglomerados.
13.Examen Final
* Sesión asíncrona
Profesor: Luciano Silva Alarco
16
Trabajos del Curso
(forman parte de los exámenes)
“ ¿Cuáles son los trabajos que hay que realizar en este curso? ”
Profesor: Luciano Silva Alarco
17
Trabajos Grupales
El curso tiene dos trabajos: El Trabajo Integrador y el Trabajo
Opcional. Ambos son grupales pero con elementos individuales.
Se formarán 2 grupos de 5 integrantes y 4 grupos de 4 integrantes
(no será posible modificar la conformación de grupos al menos que
se matriculen más alumnos de forma extemporánea).
Trabajo Integrador: Trabajo de Aplicación Práctica
Indicaciones al final de la presentación.
Trabajo Opcional: Competencia Kaggle
Carpeta Kaggle en Intranet con todas las indicaciones.
Profesor: Luciano Silva Alarco
18
Tarea Académica
Componentes:
Trabajo Integrador:
Informe Parcial (grupal) y Presentación (exposición)
(60% y 40% del E1 respectivamente)
Informe Final (grupal) y Presentación (exposición)
(60% y 40% del E2 respectivamente)
Trabajo Opcional:
Informe (grupal) y Resultados de la Competencia Kaggle
(entre 0 y 3 puntos extra en el Informe Final)
Profesor: Luciano Silva Alarco
19
Introducción
“ Conceptos básicos antes de entrar al preprocesamiento ”
Profesor: Luciano Silva Alarco
20
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
21
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
22
¿Por qué Data Mining?
• Explotar la disponibilidad de datos:
La recolección de datos automatizada, la Web y la alta tecnología en
bases de datos genera una enorme cantidad de colección de datos .
• Fuentes principales de grandes cantidades de datos:
Negocios: Web, e-Commerce, transacciones, bolsa de valores, …
Ciencias: Teledetección, bioinformática, simulaciones, …
Sociedad: Noticias, cámaras digitales, Instagram, Twitter, …
• “Nos ahogamos en datos, pero estamos hambrientos de conocimiento”
(John Naisbitt).
• “La necesidad es la madre de la Invención” (Platón).
Profesor: Luciano Silva Alarco
23
¿Qué es la Minería de Datos o Data
Mining?
• La Minería de Datos es el proceso de “La intuición se hace cada vez más
identificar patrones válidos, novedosos, valiosa en la nueva sociedad que se
basa en la información,
útiles y comprensibles en los datos.
precisamente porque hay muchos
• Forma parte del Proceso de: datos”. John Naisbitt
Descubrimiento del Conocimiento o KDD
(Knowledge Discovery in Databases) “La planificación estratégica no sirve
• Nombres alternativos: knowledge extraction, de nada... a menos que primero haya
una visión estratégica (prospección)”.
data/pattern analysis, data archeology, data
dredging, information harvesting, etc. John Naisbitt
Profesor: Luciano Silva Alarco
24
Ejemplos de lo que es y no es Data
Mining
No es Data Mining Es Data Mining
• Algunos apellidos prevalecen más en
• Buscar un número de teléfono en
regiones del Perú (ejemplo: Aguilar,
una guía telefónica.
Álvarez, Andrade, … , en Lima).
• Consultar en un motor de búsqueda
• Agrupación de documentos similares
como “Google” para obtener
devueltos por el motor de búsqueda de
información acerca del “pisco”.
acuerdo a su contexto (ejemplo: pisco
licor, Pisco ciudad, etc.).
Profesor: Luciano Silva Alarco
25
Proceso de Extracción de Conocimiento ( KDD )
Fayyad et al., 1996
Profesor: Luciano Silva Alarco
26
Data Mining e Inteligencia de Negocios
Potencial para apoyar las
decisiones de negocio Usuario Final
Toma de
Decisiones
Presentación de Datos Analista de Negocios
Técnicas de Visualización
Data Mining Analista de Datos
Descubrimiento de Información
Exploración de Datos
Resumen Estadístico, Consultas, y Presentación de Informes
Procesamiento/Integración de Datos, Data Warehouses
DBA
Fuentes de Datos
Archivos, Documentos Web, Experimentos Científicos, Sistemas de BD
Profesor: Luciano Silva Alarco
27
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
28
¿Qué tipos de datos?
• Colección de Datos orientados a Base de Datos:
BD Relacionales, Data Warehouse, BD Transaccionales.
• Colección de Datos (datasets) avanzados:
Data streams, sensor data.
Series de tiempo, temporal data, sequence data (ejemplo: bio-sequences).
Structure data, graphs, redes sociales, multi-linked data.
Object-relational databases (orientadas a objetos).
Heterogeneous databases, legacy databases.
Spatial data, spatiotemporal data.
Multimedia database.
Text databases, semi-structured data.
The World-Wide Web.
Profesor: Luciano Silva Alarco
29
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
30
¿Qué tipo de patrones pueden ser
descubiertos?
• Generalizaciones:
Integración de información, construcción de Data Warehouse, Tecnología de Cubos
(concepto multidimensional).
• Asociación y Correlación:
Patrones frecuentes, reglas de asociación versus causalidad.
• Clasificación y Proyección:
Predicción de etiquetas (labels), árbol de decisión, Bayes, redes neuronales, regresión
logística.
• Análisis de Clusters:
Etiquetas desconocidas, grupo de datos para nuevas categorías.
• Análisis de Datos Atípicos:
Detección de anomalías, ruido o excepción.
Profesor: Luciano Silva Alarco
31
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
32
Diferencia entre Técnica y Tecnología
Técnica Tecnología
Una técnica es un procedimiento mediante la cual se
Por otro lado, tecnología son todos aquellos conocimientos
pretende conseguir un objetivo particular. Este
técnicos, científicamente comprobados, que al ejecutarse
Definición procedimiento suele estar conformado por pasos,
correctamente permiten la creación de bienes y servicios que
reglas y protocolos que deben ser respetados para que
satisfacen una necesidad o un deseo.
la técnica sea exitosa.
Tecnología tiene de hecho la misma raíz griega que técnica,
Esta palabra proviene del griego “tékhnē” y significa
Etimologías sin embargo se le agrega la terminación –logía, que viene
“arte u oficio”.
de “logos”, estudio de algo.
Una técnica hace uso de una o más destrezas. Estas
pueden ser tanto físicas como intelectuales. El La tecnología tiene en común con la técnica que requiere de
propósito de estas es que la persona sea capaz de ciertas destrezas o habilidades para poder ser llevada a cabo.
modificar algo a través de estas. Por lo general, las El fin más general de la tecnología es transformar, cambiar las
Acerca de las técnicas son parte del conocimiento que se transmite cosas y adecuarlas para facilitar y mejorar la vida de tantas
destrezas, el
aprendizaje, su
de una persona a otra o bien, de una generación a la personas como pueda ser posible. No obstante, la tecnología
uso y su fin siguiente. La cuestión es que siempre existe un primer también tiene un lado más comercial, uno que concierne al
individuo responsable de crearla o inventarla y a lo consumismo. De hecho, hoy en día es difícil encontrar un
largo de la historia más personas se encargarán de aspecto que no esté cercanamente relacionado a la
modificarla y adecuarla a las necesidades específicas tecnología; desde el medio ambiente hasta la moda.
de su tiempo.
Profesor: Luciano Silva Alarco
Data Mining: Convergencia de Varias
33
Disciplinas
Tecnologías de Estadística y
Base de Datos Álgebra Lineal
Machine Visualización
Learning Data Mining
Reconocimiento
de Patrones (AI) Disciplinas de
Programación Aplicación
de Algoritmos
Profesor: Luciano Silva Alarco
¿Por qué la convergencia de varias
34
disciplinas?
•Gigantesca cantidad de datos
Los algoritmos deben ser altamente escalables para manejar datos en el orden de los tera-bytes
(peta-bytes, hexa-bytes).
•Alta dimensionalidad de los datos
Un microarray puede tener decenas de miles de dimensiones.
•Alta complejidad de los datos
Los flujos de datos y los datos de los sensores.
Datos de series de tiempo, datos temporales, datos secuenciales.
Datos estructurales, datos gráficos, datos de redes sociales y datos de enlaces múltiples.
Bases de datos Heterogéneas y bases de datos históricas.
Datos espaciales, Datos espacio-temporales, multimedia, texto y datos Web.
Datos de Internet (localización, software, hardware, conexión, imágenes, inicios de sesión “login”)
•Aplicaciones nuevas y sofisticadas
Profesor: Luciano Silva Alarco
35
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
36
Aplicaciones de Data Mining
• Análisis de páginas Web: Desde clasificación y agrupación hasta PageRank y
algoritmos HITS (Hypertext Induced Topic Selection).
• Análisis de “Colaboración” y Sistemas de Recomendación.
• Desde Basket data analysis hasta Marketing Dirigido.
• Biological and medical data analysis: classification, cluster analysis (microarray data
analysis), biological sequence analysis, biological network analysis.
• Data mining e ingeniería de software (ejemplo: IEEE Computer Society)
• Desde sistemas y herramientas dedicados a Data Mining (ejemplo: SAS, MS SQL-
Server Analysis Manager, Oracle Data Mining Tools) hasta Data Mining invisible.
• Lectura: Ejemplos de aplicaciones reales de Data Mining.
Profesor: Luciano Silva Alarco
37
Introducción
1. ¿Qué es Data Mining?
2. Tipología de los datos y sus fuentes.
3. Tipos de patrones que pueden ser “minados”.
4. Técnicas, tecnologías y aplicaciones empleadas.
5. Aplicaciones del Data Mining.
6. Retos en el ámbito del Data Mining.
Profesor: Luciano Silva Alarco
38
Retos en el Ámbito de Data Mining
• Metodología
Nuevos y variados tipos de conocimiento.
Análisis del conocimiento en un nivel multidimensional.
Data mining: Es un esfuerzo interdisciplinario.
Incrementar el poder de “descubrimiento” en un entorno de red (network).
Manejo de ruido, incertidumbre e incompletud de datos.
Evaluación de patrones complejos o Data Mining con restricciones.
• Interacción con el Usuario
Data Mining interactivo.
Incorporación de conocimiento de fondo (background).
Presentación y visualización de los resultados.
Profesor: Luciano Silva Alarco
39
Retos del Data Mining
• Eficiencia y Escalabilidad
Algoritmos de Data Mining eficientes y escalables.
Métodos de “minería” paralela, incremental, equilibrada y de flujo.
• Diversidad en los tipos de datos
Manejo de tipo de datos complejos.
Data Mining dinámico, en red y en repositorio de datos globales.
Data Mining y la Sociedad.
Impactos Sociales.
Data Mining y la Confidencialidad de la Información.
Data Mining Invisible (ejemplo: motores de búsqueda de Google).
Profesor: Luciano Silva Alarco
40
Trabajo Grupal 01
Para la realización del Trabajo Integrador, empezar con las siguientes
actividades de la Introducción, que se discutirán la próxima clase:
1. Identificar la necesidad, el problema o la oportunidad que justifique el proyecto
de Data Mining.
2. Describir el contexto en el cuál se desarrolla el proyecto, incluyendo
antecedentes, la interrelación entre actores y los factores externos más
relevantes
3. Definir un título apropiado para el proyecto de Data Mining.
4. Definir la propuesta de valor y el objetivo general del proyecto dentro del
marco del curso.
5. Definir y describir la o las fuentes de datos a utilizar incluyendo los tipos de
datos, los atributos o variables de entrada (inputs) y el nivel de complejidad e
incertidumbre asociado a estos (cantidad, variedad, exigüidad y resolución).
6. Definir y describir de forma específica los datos que se obtendrán como
resultado de aplicar las herramientas de Data Mining (outputs) y su relación con
el objetivo del proyecto.
7. Realizar un esbozo inicial sobre la metodología, indicando lo más
detalladamente posible, la transformación y el camino desde la obtención de
datos de entrada (inputs) hasta la obtención de los datos de salida o resultados
(outputs).
Profesor: Luciano Silva Alarco
41
¡Gracias! ¿Alguna pregunta?
Me la pueden hacer llegar a:
[email protected]Profesor: Luciano Silva Alarco