PLAN DOCENTE DE LA ASIGNATURA: Minería de Datos
CÓDIGO: 501463
CURSO ACADÉMICO: 2021/2022
1
PLAN DOCENTE DE LA ASIGNATURA 1
Curso académico: 2021/2022
Identificación y características de la asignatura
Código 2 501463 Créditos ECTS 6
Denominación Minería de Datos
(español)
Denominación (inglés) Data Mining
Grado en Ingeniería Informática en Tecnología de la
Titulaciones 3
Información
Centro 4 Centro Universitario de Mérida
Semestre 8 Carácter Optativa
Módulo Contenidos Optativos en Tecnologías de la Información
Materia Análisis y Gestión de la Información
Profesor/es
Nombre Despacho Correo-e Página web
Eva T. López Sanjuán 26
[email protected]Emilio Hernández 26
[email protected]García
Área de conocimiento Estadística e Investigación Operativa
Departamento Matemáticas
Profesor coordinador 5
Eva T. López Sanjuán
(si hay más de uno)
Competencias 6
Competencias básicas
CB1 - Que los estudiantes hayan demostrado poseer y comprender conocimientos en un
área de estudio que parte de la base de la educación secundaria general, y se suele
encontrar a un nivel que, si bien se apoya en libros de texto avanzados, incluye también
algunos aspectos que implican conocimientos procedentes de la vanguardia de su campo
de estudio
CB2 - Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una
forma profesional y posean las competencias que suelen demostrarse por medio de la
elaboración y defensa de argumentos y la resolución de problemas dentro de su área de
estudio
CB3 - Que los estudiantes tengan la capacidad de reunir e interpretar datos relevantes
(normalmente dentro de su área de estudio) para emitir juicios que incluyan una reflexión
1 En los casos de planes conjuntos, coordinados, intercentros, pceos, etc., debe recogerse la información
de todos los títulos y todos los centros en una única ficha.
2 Si hay más de un código para la misma asignatura, ponerlos todos.
3 Si la asignatura se imparte en más de una titulación, consignarlas todas, incluidos los PCEOs.
4 Si la asignatura se imparte en más de un centro, incluirlos todos
5 En el caso de asignaturas intercentro, debe rellenarse el nombre del responsable intercentro de cada
asignatura
6 Deben ajustarse a lo recogido en la memoria verificada del título.
2
sobre temas relevantes de índole social, científica o ética
CB4 - Que los estudiantes puedan transmitir información, ideas, problemas y soluciones a
un público tanto especializado como no especializado
CB5 - Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje
necesarias para emprender estudios posteriores con un alto grado de autonomía
Competencias generales
CG4 - Capacidad para definir, evaluar y seleccionar plataformas hardware y software para
el desarrollo y la ejecución de sistemas, servicios y aplicaciones informáticas, de acuerdo
con los conocimientos adquiridos, según lo establecido en el anexo-2 de la Resolución de 8
de junio de 2009 de la Secretaría General de Universidades (BOE de 4 de Agosto de 2009)
en el ámbito de las Tecnologías de la Información.
CG8 - Conocimiento de las materias básicas y tecnologías, que capaciten para el
aprendizaje y desarrollo de nuevos métodos y tecnologías, así como las que les doten de
una gran versatilidad para adaptarse a nuevas situaciones.
CG9 - Capacidad para resolver problemas con iniciativa, toma de decisiones, autonomía y
creatividad. Capacidad para saber comunicar y transmitir los conocimientos, habilidades y
destrezas de la profesión de Ingeniero Técnico en Informática.
Competencias específicas
CEO4: Conocer las técnicas de organización, mantenimiento y presentación de la
información actuales, estudiando mecanismos de minería de datos adecuados para la
extracción de la información y su almacenamiento en almacenes de datos.
CEO6: Ser capaz de diseñar y construir sistemas de información de apoyo a la toma de
decisiones (sistemas de almacenes de datos) así como estudiar las técnicas de minería de
datos adecuadas para la extracción de conocimiento útil para el análisis de datos y la toma
de decisiones.
Competencias transversales
CT4. Resolución de problemas
CT5. Toma de decisiones
CT7. Planificación
CT9. Comunicación verbal
CT13. Resistencia y adaptación al entorno
CT20. Iniciativa y espíritu emprendedor
Contenidos6
Breve descripción del contenido
Etapas, tareas y métodos para el descubrimiento del conocimiento. Visualización y
exploración de datos. Aprendizaje supervisado y no supervisado.
Temario de la asignatura
1: Introducción a la Minería de Datos
Contenidos:
1.1 Introducción a la Minería de Datos.
1.2 Objetivos de la Minería de Datos. Ejemplos.
Actividades prácticas:
Práctica 1. Iniciación a R
Denominación del tema 2: Aprendizaje supervisado (I): Regresión
Contenidos:
2.1 Regresión lineal simple
2.2 Regresión lineal múltiple
3
2.3 Regresión no lineal
2.4 Regresión no paramétrica: KNN
2.5 Regresión Ridge
2.6 Regresión Lasso
Actividades prácticas:
Práctica 2. Regresión lineal simple y múltiple
Práctica 3. Regresión por KNN, Ridge y Lasso
Denominación del tema 3: Aprendizaje supervisado (II): Clasificación
Contenidos del tema 3:
3.1 Regresión logística
3.2 Análisis Discriminante lineal (LDA) y Cuadrático (QDA)
3.3 Vecinos más próximos (KNN)
3.4 Árboles aleatorios (random trees)
3.5 Bosques aleatorios
3.6 Clasificadores de vector soporte
Actividades prácticas del tema 3:
Práctica 4: Clasificación logística y análisis discriminante lineal
Práctica 5: Análisis discriminante cuadrático, KNN y árboles de clasificación
Práctica 6: Bagging y Random Forests
Práctica 7: Boosting y Support Vector Machines
Denominación del tema 4: Aprendizaje no supervisado
Contenidos del tema 4:
4.1 K means
4.2 Agrupamiento jerárquico
4.3 Modelos de mezclas. Algoritmo EM.
4.4 Reglas de asociación: la cesta del mercado. El algoritmo Apriori.
4.5 El algoritmo PageRank de Google
Actividades prácticas del tema 4:
Práctica 8: K-medias y agrupamiento jerárquico
Práctica 9: Modelos de mezclas
Práctica 10: Reglas de asociación
Actividades formativas 7
Horas
Horas de trabajo del Actividad de No
Gran Actividades prácticas
estudiante por tema seguimiento presencial
grupo
Tema Total GG PCH LAB ORD SEM TP EP
1 6 2 2 2
2 31 8 4 1 18
3 42 14 8 1 22
4 49 12 6 1 26
Evaluación 8 22 4 19
TOTAL 150 40 20 3 87
GG: Grupo Grande (100 estudiantes).
PCH: prácticas clínicas hospitalarias (7 estudiantes)
LAB: prácticas laboratorio o campo (15 estudiantes)
7 Esta tabla debe coincidir exactamente con lo establecido en la ficha 12c de la asignatura.
8 Indicar el número total de horas de evaluación de esta asignatura.
4
ORD: prácticas sala ordenador o laboratorio de idiomas (30 estudiantes)
SEM: clases problemas o seminarios o casos prácticos (40 estudiantes).
TP: Tutorías Programadas (seguimiento docente, tipo tutorías ECTS).
EP: Estudio personal, trabajos individuales o en grupo, y lectura de bibliografía.
Metodologías docentes6
1. Clases expositivas de teoría y problemas: Presentación de los contenidos de la asignatura y
planificación de la participación de todos los estudiantes en las distintas tareas. Discusión de
aspectos teóricos. Adicionalmente se realizarán charlas divulgativas realizadas por expertos y/o
empresas de la materia.
2. Enseñanza participativa: Trabajos prácticos en grupos medianos o pequeños.
3. Tutorización: Actividad de seguimiento para tutela de trabajos dirigidos, consultas de dudas
y asesoría en grupos pequeños o individuales.
4. Aprendizaje autónomo mediante el análisis de documentos escritos, la elaboración de
memorias, el estudio de la materia impartida y desarrollo de los supuestos prácticos
planteados.
5. Aprendizaje virtual. Uso de herramientas virtuales de comunicación entre profesor y
estudiante e incluso entre los estudiantes entre sí.
Resultados de aprendizaje6
• Conocer y saber aplicar las técnicas y herramientas de minería de datos adecuadas
para la extracción de conocimiento útil para el análisis de datos y toma de decisiones.
• Demostrar seguridad e iniciativa para tomar decisiones responsables y acertadas en
situaciones comprometidas. (CT5, 3er nivel de dominio)
• Emprender proyectos ambiciosos (complejos y desafiantes), que implican una decisión
social. (CT20, 3er nivel de dominio)
Sistemas de evaluación6
EVALUACIÓN CONTINUA:
INSTRUMENTO DE PONDERACIÓN RECUPERABLE
EVALUACIÓN
Asistencia 20% NO
Trabajos 80 % SÍ
1. Asistencia: la asistencia regular a clase, así como la participación activa en la misma,
permitirá obtener hasta 2 puntos en la nota final.
2. El estudiante deberá realizar 3 trabajos a lo largo del curso, para demostrar sus
conocimientos sobre la materia, que expondrá en clase. La nota media de estos
trabajos supondrá hasta 8 puntos de la nota final.
Los alumnos que no obtengan un aprobado en la convocatoria ordinaria, podrán
presentar de nuevo los trabajos en la/s siguiente/s convocatoria/s.
5
EVALUACIÓN GLOBAL: El estudiante deberá realizar un examen, que podrá realizar con el
ordenador, y éste contará el 100% de la calificación final.
Bibliografía (básica y complementaria)
Básica
Como recomendación básica para la teoría de toda la asignatura se podría tomar el libro de
James, Witten, Hastie y Tibshirani (2013). También es muy recomendable el libro de Hand,
Mannila y Smyth (2001), ya que cubre todos los temas con un compromiso equilibrado entre la
visión estadística y el enfoque informático. Como referencias clásicas en la materia se pueden
citar además los libros de Han y Kamber (2006), orientado desde el punto de vista de bases de
datos, y Witten, Frank y Hall (2011) que adopta el punto de vista de aprendizaje de máquinas.
Para la parte práctica no existe hoy día una gran abundancia de bibliografía que esté
específicamente enfocada para hacer Minería de Datos con el software estadístico R, aunque
recientemente se han publicado dos libros precisamente con este orientación: el libro de
Williams (2011), que está dedicado principalmente al uso del R para hacer Minería de Datos a
través de su interfaz gráfica Rattle, y el libro de Torgo (2011), que presenta una serie de
ejemplos basados en casos reales e indicaciones sobre cómo analizarlos usando R.
Han, J. y Kamber, M. (2006) Data Mining: Concepts and Techniques. Morgan Kauffman
Publishers, San Francisco.
Hand, D., Mannila, H. y Smyth, P. (2001) Principles of Data Mining. MIT Press, Cambridge.
James, G., Witten, D., Hastie, T. and Tibshirani, R. (2013) An Introduction to Statistical
Learning with Applications in R. Springer-Verlag, New York.
Torgo, L. (2011) Data Mining with R: Learning with Case Studies. Chapman and Hall, Boca
Ratón.
Williams, G. (2011) Data Mining with Rattle and R: The Art of Excavating Data for Knowledge
Discovery. Springer Science+Business Media, New York.
Complementaria
Cios, K.J., Pedrycz, W., Swiniarski, R.W. y Kurgan, L.A. (2007) Data Mining: A Knowledge
Discovery Approach. Springer Science+Business Media, New York.
Devroye, L., Györfi, L. y Lugosi, G. (1996) A Probabilistic Theory of Pattern Recognition.
Springer-Verlag, New York.
Everitt, B.S. (2005) An R and S-PLUS Companion to Multivariate Analysis. Springer-Verlag,
London.
Everitt, B.S. y Hothorn, T. (2010) A Handbook of Statistical Analyses Using R. Chapman and
Hall, Boca Ratón.
Everitt, B.S. y Hothorn, T. (2011) An Introduction to Applied Multivariate Analysis with R.
Springer Science+Business Media, New York.
Everitt, B.S., Landau, S., Leese, M. y Stahl, D. (2011) Cluster Analysis. John Wiley and Sons,
Chichester.
Hartigan, J.A. (1975) Clustering Algorithms. John Wiley and Sons, New York.
6
Hastie, T., Tibshirani, R. y Friedman, J. (2009) The Elements of Statistical Learning: Data
Mining, Inference, and Prediction. Springer-Verlag, New York.
Hernández Orallo, J., Ramírez Quintana, M.J. y Ferri, C. (2004) Introducción a la Minería de
Datos. Pearson Educación, Madrid.
Izenman, A. J. (2008) Modern Multivariate Techniques. Springer-Verlag, New York.
Maindonald, J. y Braun, W.J. (2010) Data Analysis and Graphics Using R -- an Example-Based
Approach. Cambridge University Press, Cambridge.
Peña, D. (2002) Análisis Multivariante. McGraw-Hill, Madrid.
Witten, I.H., Frank, E. y Hall, M.A. (2011) Data Mining: Practical Machine Learning Tools and
Techniques. Morgan Kauffman Publishers, San Francisco.
Wu, X. y Kumar, V. (2009) The Top Ten Algorithms in Data Mining. Chapman and Hall, Boca
Ratón.
Otros recursos y materiales docentes complementarios
http://www.rdatamining.com/
http://apuntes-r.blogspot.com.es/p/indice-de-articulos.html
https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R