Programa

Este documento presenta el curso de Reinforcement Learning (Aprendizaje por Refuerzo) impartido por el profesor Fernando Lozano. El curso cubre los fundamentos teóricos del paradigma de RL y algoritmos modernos como Deep RL. Los estudiantes aprenderán a identificar problemas de RL, seleccionar algoritmos apropiados para resolverlos y evaluar las soluciones. La calificación se basa en tareas (60%) y exámenes (40%).

Cargado por

Laura Catalina Márquez Cristancho

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

33 vistas2 páginas

Programa

Cargado por

Laura Catalina Márquez Cristancho

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Departamento de Ingenierı́a Eléctrica y Electrónica

Reinforcement Learning
IELE4922
Fernando Lozano Martı́nez
e-mail: flozano@[Link]
Horas de Atención: Miércoles y Viernes 2:30-3:30 p.m. ML 427

1. Descripción
Reinforcement Learning (RL) o Aprendizaje por Refuerzo, es un paradigma de aprendizaje de máquina
agentes que aprenden autónomamente a realizar una tarea a partir de su interacción en el ambiente en el que
están inmersos. La aplicación exitosa de RL a problemas reales en robótica, control, juegos por computador y
múltiples otras áreas hacen que sea una de las áreas de estudio más promisorias en inteligencia artificial. En
este curso se estudiará el paradigma general de RL en el contexto de procesos de decisión de Markov (MDP)
y los algoritmos de solución de problemas de RL tanto en entornos discretos como continuos, incluyendo
algoritmos modernos de RL profundo (Deep Reinforcement Learning). Se pretende que al finalizar el curso,
el estudiante pueda identificar un problema de RL en un contexto real, seleccionar el algoritmo apropiado
de RL para resolverlo y evaluar la solución obtenida.

2. Evaluación
Criterio Porcentaje
Tareas 60 %
2 Exámenes 40 %

3. Reglas
Las tareas realizarse en grupos de máximo dos personas. Aunque es válido discutir los problemas con
sus compañeros de otros grupos, el trabajo debe ser de completa autorı́a de los estudiantes del grupo.
Esto quiere decir que no es permitido por ejemplo usar el trabajo de otro grupo (u otra fuente similar)
como ”guı́a”para resolver su tarea. Está prohibido copiar cualquier material/código desarrollado por
otro estudiante, u obtener soluciones del internet, soluciones de semestres pasados u otros medios, a no
ser que se especifique en el enunciado. Cualquier transgresión a esta regla se considerará FRAUDE y
se reportará sin excepciones. Me reservo el derecho de solicitar sustentación detallada de las tareas y
de asignar la calificación de acuerdo a la sustentación.
Cada tarea tendrá una fecha y hora de entrega predeterminada. Usted (o su grupo) dispone de un
“presupuesto” de 8 dı́as de retardo que puede utilizar libremente sin incurrir en ninguna penalización
(por ejemplo usted puede entregar la primera tarea tres dı́as tarde y la segunda cinco dı́as tarde y las
demás a tiempo). Una tarea entregada tarde cuando se haya agotado el presupuesto tendrá nota de
cero.
La calificación final se obtendrá mediante redondeo a las centésimas (por ejemplo 2, 995 corresponde a
3, 00, pero 2, 994 corresponde a 2, 99).

Los reclamos en calificaciones se deben hacer de acuerdo a lo estipulado en el reglamento de estudiantes.

4. Contenido
1. Introducción al problema de RL ([Sutton and Barto, 2018], capı́tulo 1).
2. El dilema entre exploración y explotación, multi-armed bandits ([Sutton and Barto, 2018], capı́tulo 2).
3. Procesos de decisión de Markov ([Sutton and Barto, 2018], capı́tulo 3, [Puterman, 2014]).

4. Métodos de solución tabulares: Programación dinámica, métodos de Montecarlo

([Sutton and Barto, 2018], capı́tulos 3,4).
5. Métodos de solución tabulares: método de diferencia temporal (TD), Q-Learning, SARSA ([Sutton and Barto, 2018],
capı́tulos 6,7).
6. Redes Neuronales Convolucionales1 [Goodfellow et al., 2016].

7. RL con aproximación de funciones ([Sutton and Barto, 2018], capı́tulos 9,10).

8. Deep Reinforcement Learning [Mnih et al., 2013, Hasselt et al., 2016, Schaul et al., 2016, Wang et al., 2016].
9. Métodos de búsqueda de polı́tica (policy search) ([Sutton and Barto, 2018], capı́tulos 9,13), [Lillicrap et al., 2019],[Schul
.

Referencias
[Goodfellow et al., 2016] Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press.
[Hasselt et al., 2016] Hasselt, H. v., Guez, A., and Silver, D. (2016). Deep reinforcement learning with double
q-learning. In Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, AAAI’16, pages
2094–2100. AAAI Press.
[Lillicrap et al., 2019] Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D., and
Wierstra, D. (2019). Continuous control with deep reinforcement learning.

[Mnih et al., 2013] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and
Riedmiller, M. (2013). Playing atari with deep reinforcement learning. cite arxiv:1312.5602Comment:
NIPS Deep Learning Workshop 2013.
[Puterman, 2014] Puterman, M. L. (2014). Markov decision processes: discrete stochastic dynamic program-
ming. John Wiley & Sons.

[Schaul et al., 2016] Schaul, T., Quan, J., Antonoglou, I., and Silver, D. (2016). Prioritized experience replay.
In International Conference on Learning Representations, Puerto Rico.
[Schulman et al., 2017] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. (2017). Proximal
policy optimization algorithms.

[Sutton and Barto, 2018] Sutton, R. S. and Barto, A. G. (2018). Reinforcement Learning: An Introduction.
The MIT Press, second edition.
[Wang et al., 2016] Wang, Z., Schaul, T., Hessel, M., Hasselt, H., Lanctot, M., and Freitas, N. (2016). Dueling
network architectures for deep reinforcement learning. volume 48 of Proceedings of Machine Learning
Research, pages 1995–2003, New York, New York, USA. PMLR.

1 Opcional, dependiendo de la audiencia.

También podría gustarte

Introducción al Aprendizaje por Refuerzo
Aún no hay calificaciones
Introducción al Aprendizaje por Refuerzo
3 páginas
Tarea Semana6 Bryan Villarruel
Aún no hay calificaciones
Tarea Semana6 Bryan Villarruel
10 páginas
Aprendizaje por Refuerzo: Guía Básica
Aún no hay calificaciones
Aprendizaje por Refuerzo: Guía Básica
27 páginas
Reinforcement Learning
Aún no hay calificaciones
Reinforcement Learning
6 páginas
Trabajo 1 BMA20 (Tema 17)
Aún no hay calificaciones
Trabajo 1 BMA20 (Tema 17)
32 páginas
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
Aún no hay calificaciones
Aprendizaje Por Refuerzo Tradicional y Profundo (Reinforcement Learning)
13 páginas
TFG Sandra Rudkowskyj Hernanz
Aún no hay calificaciones
TFG Sandra Rudkowskyj Hernanz
94 páginas
Aprendizaje Refuerzo en Laberintos
Aún no hay calificaciones
Aprendizaje Refuerzo en Laberintos
3 páginas
Sistemas Cognitivos Artificiales - 8 Agentes Inteligentes. Deep Reinforcement Learning
Aún no hay calificaciones
Sistemas Cognitivos Artificiales - 8 Agentes Inteligentes. Deep Reinforcement Learning
27 páginas
Examen 2024
Aún no hay calificaciones
Examen 2024
5 páginas
Q Leanrning
Aún no hay calificaciones
Q Leanrning
64 páginas
TFM Pablo San Jose Barrios
Aún no hay calificaciones
TFM Pablo San Jose Barrios
53 páginas
Aprendizaje por Refuerzo: Conceptos y Aplicaciones
Aún no hay calificaciones
Aprendizaje por Refuerzo: Conceptos y Aplicaciones
22 páginas
Procesos de Decisión de Markov y RL
Aún no hay calificaciones
Procesos de Decisión de Markov y RL
54 páginas
Aprendizaje Refuerzo
Aún no hay calificaciones
Aprendizaje Refuerzo
11 páginas
Control de Sistemas Mecatrónicos Mediante Aprendizaje Reforzado Profundo
Aún no hay calificaciones
Control de Sistemas Mecatrónicos Mediante Aprendizaje Reforzado Profundo
9 páginas
Programación Dinámica y Aprendizaje
Aún no hay calificaciones
Programación Dinámica y Aprendizaje
48 páginas
08MAIR Aprendizaje Por Refuerzo
Aún no hay calificaciones
08MAIR Aprendizaje Por Refuerzo
3 páginas
Control Cooperativo con Redes Neuronales
Aún no hay calificaciones
Control Cooperativo con Redes Neuronales
64 páginas
Introducción al Aprendizaje por Refuerzo
100% (1)
Introducción al Aprendizaje por Refuerzo
36 páginas
Cuestionario para Evaluación 2
Aún no hay calificaciones
Cuestionario para Evaluación 2
4 páginas
Transparencias-Tema12 2 Presencial-Ic
Aún no hay calificaciones
Transparencias-Tema12 2 Presencial-Ic
25 páginas
TFG Rufo Paris 2022
Aún no hay calificaciones
TFG Rufo Paris 2022
110 páginas
Ejercicios RPA
Aún no hay calificaciones
Ejercicios RPA
57 páginas
Aprendizaje por Refuerzo en Videojuegos
Aún no hay calificaciones
Aprendizaje por Refuerzo en Videojuegos
52 páginas
Aprendizaje Refuerzo en Codificación Vídeo
Aún no hay calificaciones
Aprendizaje Refuerzo en Codificación Vídeo
69 páginas
Aprendizaje por Refuerzo en Robots
Aún no hay calificaciones
Aprendizaje por Refuerzo en Robots
19 páginas
Iaia 2024 02 L02
Aún no hay calificaciones
Iaia 2024 02 L02
5 páginas
Redes Neuronales IAIA 2024
Aún no hay calificaciones
Redes Neuronales IAIA 2024
2 páginas
LVQ
Aún no hay calificaciones
LVQ
22 páginas
Hoja Referencia Aprendizaje Profundo
100% (1)
Hoja Referencia Aprendizaje Profundo
2 páginas
Protocolo Aprendizaje Profundo
Aún no hay calificaciones
Protocolo Aprendizaje Profundo
5 páginas
Redes Neuronales Lineales en MATLAB
Aún no hay calificaciones
Redes Neuronales Lineales en MATLAB
13 páginas
Algoritmo de Back-Propagation
Aún no hay calificaciones
Algoritmo de Back-Propagation
15 páginas
IAIA 2024 02 L02 (Sierra Suarez)
Aún no hay calificaciones
IAIA 2024 02 L02 (Sierra Suarez)
5 páginas
Manipulacion de Objetos Mediante Un Brazo Robotico Usan Termes Sabater Jordi
Aún no hay calificaciones
Manipulacion de Objetos Mediante Un Brazo Robotico Usan Termes Sabater Jordi
80 páginas
9786077074670
0% (1)
9786077074670
2 páginas
190B0709 DonatoDomínguez Portafoli
Aún no hay calificaciones
190B0709 DonatoDomínguez Portafoli
35 páginas
Optimización Del Control Climático en Un Modelo de Crecimiento de Vegetales en Invernadero Con Aprendizaje Reforzado
Aún no hay calificaciones
Optimización Del Control Climático en Un Modelo de Crecimiento de Vegetales en Invernadero Con Aprendizaje Reforzado
78 páginas
Examen 2024
Aún no hay calificaciones
Examen 2024
10 páginas
Clase 1 Unidad 2
Aún no hay calificaciones
Clase 1 Unidad 2
4 páginas
Fundamentos Detra S de La Cadena de Pensamientos 1
Aún no hay calificaciones
Fundamentos Detra S de La Cadena de Pensamientos 1
75 páginas
Introducción A Las Soluciones Aproximadas
Aún no hay calificaciones
Introducción A Las Soluciones Aproximadas
28 páginas
Wuolah Free TerceraConvocatoria 2014
Aún no hay calificaciones
Wuolah Free TerceraConvocatoria 2014
5 páginas
Implementación de Q-Learning
Aún no hay calificaciones
Implementación de Q-Learning
13 páginas
Ejemplo de Red Neural Con Matlab
Aún no hay calificaciones
Ejemplo de Red Neural Con Matlab
12 páginas
Introducción a Backpropagation
Aún no hay calificaciones
Introducción a Backpropagation
118 páginas
Nestor Peña Nicolas Gomez
Aún no hay calificaciones
Nestor Peña Nicolas Gomez
48 páginas
TFM Kiril Morozov
Aún no hay calificaciones
TFM Kiril Morozov
47 páginas
Ug 202510 - 1amc0070 6964
Aún no hay calificaciones
Ug 202510 - 1amc0070 6964
12 páginas
Deep Learning Con Python
100% (4)
Deep Learning Con Python
108 páginas
UD4 - Aprendizaje Por Refuerzo y Aplicaciones
Aún no hay calificaciones
UD4 - Aprendizaje Por Refuerzo y Aplicaciones
70 páginas
IA Practice Exam
Aún no hay calificaciones
IA Practice Exam
5 páginas
Redes LVQ para Clasificación de Patrones
Aún no hay calificaciones
Redes LVQ para Clasificación de Patrones
9 páginas
Fundamentals of Deep Learning Español
Aún no hay calificaciones
Fundamentals of Deep Learning Español
288 páginas
Syllabus MachineLearning
Aún no hay calificaciones
Syllabus MachineLearning
4 páginas
Participación y Delegación en Organizaciones
100% (1)
Participación y Delegación en Organizaciones
15 páginas
Neuro Preguntas
Aún no hay calificaciones
Neuro Preguntas
7 páginas
Rubricas de Tercero Imprimir
Aún no hay calificaciones
Rubricas de Tercero Imprimir
3 páginas
Conductismo
Aún no hay calificaciones
Conductismo
4 páginas
Sesion - Matematica-Igualamos Cantidades - Miercoles 07 de Mayo Del 2025
100% (2)
Sesion - Matematica-Igualamos Cantidades - Miercoles 07 de Mayo Del 2025
6 páginas
Tarea 2 Psicolinguistica 2024
Aún no hay calificaciones
Tarea 2 Psicolinguistica 2024
12 páginas
Planificación Unidad 2 - 7º Año - Lengua y Literatura 2022
Aún no hay calificaciones
Planificación Unidad 2 - 7º Año - Lengua y Literatura 2022
3 páginas
Tesis Violencia Relación Aprendizaje
Aún no hay calificaciones
Tesis Violencia Relación Aprendizaje
96 páginas
Entrevista A Maestros
100% (2)
Entrevista A Maestros
3 páginas
PEI Mundo Aprendamos Jugando 5 Anos Ediciones Mis Logros PDF
Aún no hay calificaciones
PEI Mundo Aprendamos Jugando 5 Anos Ediciones Mis Logros PDF
2 páginas
La Adecuaciòn Taller
Aún no hay calificaciones
La Adecuaciòn Taller
3 páginas
Raíces de La Alfabetización - Yetta Goodman
Aún no hay calificaciones
Raíces de La Alfabetización - Yetta Goodman
14 páginas
Definición y naturaleza de la música
Aún no hay calificaciones
Definición y naturaleza de la música
8 páginas
Tipos Psicológicos
Aún no hay calificaciones
Tipos Psicológicos
5 páginas
TAREA 1 METODOLOGIA Primera Semana
100% (2)
TAREA 1 METODOLOGIA Primera Semana
6 páginas
Semana12 y 13. Ppt. Estrategias Grupales
Aún no hay calificaciones
Semana12 y 13. Ppt. Estrategias Grupales
24 páginas
Síntesis Investigación Acción
Aún no hay calificaciones
Síntesis Investigación Acción
3 páginas
Convocatoria CINNED2025
Aún no hay calificaciones
Convocatoria CINNED2025
2 páginas
(P.sandoval) Construccion de Proyectos Curriculares y Educativo
Aún no hay calificaciones
(P.sandoval) Construccion de Proyectos Curriculares y Educativo
45 páginas
Experiencias Reorganizadoras en Bebés
Aún no hay calificaciones
Experiencias Reorganizadoras en Bebés
14 páginas
Planificar Tu Recorrido...
Aún no hay calificaciones
Planificar Tu Recorrido...
1 página
Concurso de Preguntas: Memoria y Talento
Aún no hay calificaciones
Concurso de Preguntas: Memoria y Talento
2 páginas
Impacto de La Comunicación Interna en La Empresa Sincronia Logistica S.A. de C.V.
Aún no hay calificaciones
Impacto de La Comunicación Interna en La Empresa Sincronia Logistica S.A. de C.V.
18 páginas
Nakache El Aprendizaje en Las Perspectivas Contextualistas
Aún no hay calificaciones
Nakache El Aprendizaje en Las Perspectivas Contextualistas
14 páginas
Registros Anecdóticos en Educación Parvularia
Aún no hay calificaciones
Registros Anecdóticos en Educación Parvularia
3 páginas
15A0S2053U - Reseña Cinematográfica Estrellas en La Tierra
Aún no hay calificaciones
15A0S2053U - Reseña Cinematográfica Estrellas en La Tierra
11 páginas
ENSAYO
Aún no hay calificaciones
ENSAYO
15 páginas
Reglamento Institucional UVA
Aún no hay calificaciones
Reglamento Institucional UVA
54 páginas
Ses-Viern-Arte-Elaboramos Animales y Plantas Con Origami-Maestras de Primaria Perú-Jezabel Camargo Único Contacto-914775350
Aún no hay calificaciones
Ses-Viern-Arte-Elaboramos Animales y Plantas Con Origami-Maestras de Primaria Perú-Jezabel Camargo Único Contacto-914775350
22 páginas
Guia de Castellano Grado 2 Uso de Las Mayusculas
Aún no hay calificaciones
Guia de Castellano Grado 2 Uso de Las Mayusculas
7 páginas