0% encontró este documento útil (0 votos)

9 vistas18 páginas

Tema 12

El documento aborda el aprendizaje por refuerzo, destacando sus diferencias con el aprendizaje supervisado y no supervisado, así como su relación con procesos de decisión de Markov. Se presentan algoritmos como el de fuerza bruta y Q-learning, que permiten a los agentes aprender de su entorno y maximizar recompensas. Además, se discuten las ventajas y desventajas de estos métodos en diversas aplicaciones.

Cargado por

irene.herbote97

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

9 vistas18 páginas

Tema 12

Cargado por

irene.herbote97

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Tema 12

Aprendizaje Automático

Aprendizaje por refuerzo

y control
Índice
Esquema 3

Ideas clave 4
12.1. ¿Cómo estudiar este tema? 4
12.2. Introducción al aprendizaje por refuerzo 4
12.3. Algoritmos de aprendizaje por refuerzo 8
© Universidad Internacional de La Rioja (UNIR)

12.4. Referencias bibliográficas 12

Lo + recomendado 13

+ Información 16

Test 17
© Universidad Internacional de La Rioja (UNIR)

Aprendizaje por refuerzo y control

Introducción Algoritmos

▶ Diferencias con aprendizaje supervisado. ▶ Fuerzo bruta. Velocidad de

aprendizaje.

▶ Diferencias con aprendizaje supervisado. ▶ Q-learning.

▶ Plena observavilidad. Factor de descuento.

▶ Observabilidad parcial.

Tema 12. Esquema

Aprendizaje Automático
Esquema

3
Ideas clave

12.1. ¿Cómo estudiar este tema?

Estudia este tema a través de las Ideas clave disponibles a continuación.

E
n este tema se presentan los algoritmos de aprendizaje por refuerzo. En
primer lugar, se realiza una introducción a los mismos y se presentan las
diferencias de estos algoritmos con las técnicas de aprendizaje supervisado
y aprendizaje no supervisado.

A continuación, se describe formalmente un proceso de decisión de Markov y los

mecanismos que se realizan para aprender del entorno.

Posteriormente, se describen los algoritmos de aprendizaje por refuerzo basados en

fuerza bruta y el algoritmo Q-learning.

12.2. Introducción al aprendizaje por refuerzo

L
os seres vivos, y en particular los seres humanos, aprendemos las acciones a
realizar en función del feedback o resultado que hemos observado por estas
acciones previamente. Este aprendizaje se basa en las técnicas de
aprendizaje por refuerzo, las cuales están inspiradas en la psicología conductista.
© Universidad Internacional de La Rioja (UNIR)

Uno de los ejemplos más populares y conocidos del aprendizaje por refuerzo es el
estudio del perro de Iván Pávlov (1849-1936), donde se condicionaba a la mascota
en función de un premio o penalización por sus acciones.

Aprendizaje Automático
4
Tema 12. Ideas clave
Curiosamente, la aproximación del aprendizaje supervisado existe con una mayor
frecuencia en la naturaleza que los algoritmos de aprendizaje supervisado estudiados
previamente. El campo del aprendizaje por refuerzo estudia los algoritmos que son
capaces de aprender de su entorno (Taweh Beysolow II, 2019).

Diferencias con aprendizaje supervisado

La principal diferencia de los algoritmos de aprendizaje por refuerzo respecto de los

algoritmos supervisados y no supervisados es que reciben información del entorno
acerca de lo que es apropiado. El aprendizaje por refuerzo se estudia en diversas
disciplinas como la teoría de juegos, la teoría de control o la simulación. En estos
algoritmos las recompensas vienen con retraso (ganar un juego se premia al final),
mientras que en el aprendizaje supervisado se optimiza una acción-efecto concreta,
es decir, no se tienen en cuenta la serie de acciones futuras. En el aprendizaje por
refuerzo el número de combinaciones que un agente puede llevar a cabo para
conseguir el objetivo es muy grande.

Diferencias con aprendizaje no supervisado

En aprendizaje por refuerzo existe una relación entre la entrada y salida que no está
presente en el aprendizaje no supervisado. En el aprendizaje no supervisado el
objetivo es encontrar los patrones ocultos en lugar del mapeo acción-resultado. Por
ejemplo, si el caso de uso es sugerir nuevas noticias a una persona: un modelo no
supervisado tendrá en cuenta artículos similares a los que ha visto la persona y le
serán sugeridos, mientras que un modelo de aprendizaje por refuerzo sugiere
continuamente nuevos artículos para construir un «grafo de conocimiento» de los
artículos que le gustan a una persona.
© Universidad Internacional de La Rioja (UNIR)

Para simular el aprendizaje automático en algoritmos, es necesario realizar algunas

suposiciones, las cuales permiten tener un sistema más flexible capaz de una mayor
generalización.

Aprendizaje Automático
5
Tema 12. Ideas clave
En general, lo habitual es suponer que los agentes que aprenden del entorno siguen
un proceso de decisión de Markov (en inglés, Markov Decision Process, MDP).
Básicamente, esta situación se pude definir de la siguiente forma:

 El agente puede percibir un conjunto finito (S) de estados diferentes en su entorno

y dispone de un conjunto finito (A) de acciones para interactuar con el entorno.
 El tiempo avanza de forma discreta en cada instancia de tiempo t, el agente
percibe un estado concreto St, selecciona una posible acción, at y la ejecuta, lo
cual da lugar a un nuevo estado que se define como: St+1 = at (St).
 El entorno responde a cada de una las acciones del agente por medio de un castigo
o recompensa, que se puede denotar por r(St , at ), y que por medio del uso de un
número que cuanto mayor es, indica que mayor será el beneficio.

Una cuestión importante de este algoritmo es que cumple la propiedad de Markov.

Esto quiere decir que tanto la recompensa como el estado siguiente dependen
únicamente del estado actual y de la acción tomada.

La finalidad de estos algoritmos es que el agente se adelante a las consecuencias de

las acciones tomadas y sea capaz de identificar los estados que le llevan a conseguir
una mayor eficacia y mayores recompensas.

Figura 1. Esquema de funcionamiento de interacción de un agente con su entorno en un proceso de

aprendizaje por refuerzo. Fuente: Sutton y Barto, 1998.

Aprendizaje Automático
6
Tema 12. Ideas clave
El objetivo del aprendizaje por refuerzo es establecer aquellas acciones que deben
ser elegidas en los diferentes estados con el objetivo de maximizar la recompensa. Es
decir, se busca que el agente aprenda una política que consiste en la mejor decisión
a llevar a cabo en cada uno de los estados.

Hay situaciones en las cuales el agente puede observar el entorno por completo y son
definidos como plena observabilidad y en otras se trata de observabilidad parcial.
También situaciones con restricciones sobre las acciones que puede llevar a cabo el
agente.

El aprendizaje automático es un área que ha sido aplicada con éxito a problemas de

control de robots, aprendizaje de juego como el backgammon y las damas.

El aprendizaje por refuerzo estudia los algoritmos que son capaces de

aprender de su entorno. En estas situaciones el agente que interactúa con el
entorno puede tener plena observabilidad o bien observabilidad parcial.

En el siguiente vídeo se van a discutir las ventajas e inconvenientes de los algoritmos

de aprendizaje por refuerzo, así como las situaciones en las cuales se deberían aplicar.

Ventajas e inconvenientes de los métodos de aprendizaje por refuerzo.

Accede al vídeo a través del aula virtual

Aprendizaje Automático
7
Tema 12. Ideas clave
12.3. Algoritmos de aprendizaje por refuerzo

Existen varios algoritmos o formas de implementar los conceptos de aprendizaje por

refuerzo. Antes de entrar en detalle en los algoritmos vamos a hacer una definición
formal de un proceso de decisión de Markov, donde tenemos los siguientes
elementos:

 Conjunto de estados: S.
 Conjunto de acciones: A.
 Función de transición: 𝑇𝑇: 𝑆𝑆 𝑥𝑥 𝐴𝐴 → 𝑆𝑆.
 Función de recompensa: 𝑅𝑅: 𝑆𝑆 𝑥𝑥 𝐴𝐴 → ℝ

Un proceso de decisión de Markov (MDP) se define: 〈𝑆𝑆, 𝐴𝐴, 𝑇𝑇(𝑠𝑠, 𝑎𝑎), 𝑅𝑅(𝑠𝑠, 𝑎𝑎)〉
Donde tenemos una política: 𝜋𝜋: 𝑆𝑆 → 𝐴𝐴 una función de valor:

𝑉𝑉 𝜋𝜋 (𝑠𝑠𝑡𝑡 ) = 𝑟𝑟𝑡𝑡+1 + 𝛾𝛾𝑟𝑟𝑡𝑡+2 + 𝛾𝛾𝑟𝑟𝑡𝑡+3 + ⋯ += � 𝛾𝛾 𝑖𝑖−1 𝑟𝑟𝑡𝑡+1

𝑖𝑖=1

Donde 𝑉𝑉 𝜋𝜋 (𝑠𝑠𝑡𝑡 ) es el valor acumulado que se consigue al seguir la política 𝜋𝜋 a partir del
estado 𝑆𝑆𝑡𝑡 ; 𝛾𝛾 es un factor de descuento (0 ≤ 𝛾𝛾 ≤ 1)

La función de valor se puede definir de forma recursiva utilizando la ecuación de

Bellman:
𝑉𝑉 𝜋𝜋 (𝑆𝑆) = 𝑅𝑅�𝑠𝑠, 𝜋𝜋(𝑠𝑠)� + 𝛾𝛾𝑉𝑉 𝜋𝜋 (𝑇𝑇(𝑠𝑠, 𝜋𝜋(𝑠𝑠)))

𝑅𝑅�𝑠𝑠, 𝜋𝜋(𝑠𝑠)� es la recompensa inmediata y 𝛾𝛾𝑉𝑉 𝜋𝜋 (𝑇𝑇(𝑠𝑠, 𝜋𝜋(𝑠𝑠))) el valor del siguiente estado.
© Universidad Internacional de La Rioja (UNIR)

El objetivo del agente es aprender la política óptima 𝜋𝜋 ∗:

𝜋𝜋 ∗ (𝑠𝑠) = argmax [𝑅𝑅(𝑠𝑠, 𝑎𝑎) + 𝛾𝛾𝑉𝑉 ∗ (𝑇𝑇(𝑠𝑠, 𝑎𝑎))]

Aprendizaje Automático
8
Tema 12. Ideas clave
Donde se busca la máxima ganancia esperada a partir de s, ejecutando la acción a.

Fuerza bruta

Se trata de los algoritmos conceptualmente más sencillos de implementar. El tipo de

algoritmos basados en fuerza bruta conlleva las siguientes fases:

1. Para cada acción posible, muestrear los resultados.

2. Elegir la acción con el mayor retorno esperado.

El problema de este método es que el número de políticas suele ser extremadamente

grande, o incluso infinito. Además, la varianza de los rendimientos puede ser muy
grande, lo cual hace necesario un gran número de muestras para estimar con más
precisión el retorno de las acciones.

Q-Learning

Se trata de un algoritmo de aprendizaje por refuerzo clásico inventado hace más de

25 años, en el que el agente aprende a asignar valores de bondad a los pares
(estado, acción). Es uno de los métodos más populares por su efectividad y por las
posibilidades que ofrece para combinarlo con otras técnicas, como redes de
neuronas o deep learning.

Si un agente está en un determinado estado y toma una acción, estamos interesados

en conocer el resultado de esa acción, pero también en las recompensas futuras que
se pueden obtener por pasar a otros estados. Es decir, deberemos de ser capaces de
evaluar no solamente la recompensa actual sino también la recompensa futura de las
© Universidad Internacional de La Rioja (UNIR)

posibles acciones posteriores.

En el algoritmo Q-learning el valor Q contiene la suma de todas las posibles

recompensas futuras. El problema es que este valor puede ser infinito en el caso de
que no haya un estado terminal que alcanzar.

Aprendizaje Automático
9
Tema 12. Ideas clave
Además, es necesario establecer diferentes ponderaciones a las recompensas más
recientes frente a las más lejanas. Para este último propósito se utiliza lo que se
conoce como refuerzo acumulado con descuento, donde las recompensas futuras
están ponderadas por un valor entre 0 y 1.

El reto es en las primeras interacciones del agente con el entorno, momento en el

cual no se tiene la información necesaria para calcular el valor Q. Por tanto, se utiliza:

 Si una acción en un estado determinado es la causante de un resultado no

deseado, se utiliza esta situación para no utilizar esta acción en ese estado en el
futuro. De forma contraria, si una acción causa un resultado deseado, hay que
aprender a aplicar esa acción en ese estado.

 Si todas las acciones que se pueden realizar desde un determinado estado dan un
resultado negativo, se aprende este patrón para no tomar acciones desde otros
estados que lleven a este. Por otro lado, si cualquier acción en un estado
determinado proporciona un resultado positivo, es necesario aprender que se
debe buscar ese estado. De esta forma se propaga la recompensa de un par
(estado, acción) a los pares de los estados adyacentes.

Algoritmo

Inicializar Q(s,a) al azar.

Repetir (para cada episodio)

 Inicializar s.
 Repetir (para cada paso del episodio):
© Universidad Internacional de La Rioja (UNIR)

• Elegir a en s según una política basada en Q.

• Ejecutar la acción a, observar r, s’.
• 𝑄𝑄(𝑠𝑠, 𝑎𝑎) ← 𝑄𝑄(𝑠𝑠, 𝑎𝑎) + 𝛼𝛼[𝑟𝑟 + 𝛾𝛾 max 𝑄𝑄(𝑠𝑠 ′ , 𝑎𝑎′ ) − 𝑄𝑄(𝑠𝑠, 𝑎𝑎)]
𝑎𝑎′

• 𝑠𝑠 ⟵ 𝑠𝑠′

Aprendizaje Automático
10
Tema 12. Ideas clave
Hasta que s sea terminal.

Definimos 𝜋𝜋(𝑠𝑠) = 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑥𝑥𝑎𝑎 [𝑄𝑄(𝑠𝑠, 𝑎𝑎)].

Los episodios incluyen un estado, la acción realizada y la recompensa recibida. El

algoritmo Q-learning va iterando para ir rellenado todos los efectos posibles de las
acciones en el concepto de experiencia.

Todo lo que necesita este algoritmo para poder ser entrenado en memoria es una
tabla para almacenar las recompensas para los estados y las acciones. La tabla
contiene la mejor estimación de cada recompensa, al principio será una estimación
muy mala, pero a medida que el algoritmo aprende se irá volviendo más y más
precisa.

El algoritmo necesita dos parámetros que debemos ajustar en función del problema
que estamos resolviendo:

 Velocidad de aprendizaje (learning rate): es un valor entre 0 y 1 que indica cuánto

se puede aprender en cada episodio. En el caso de cero indica que no se aprende
nada de ese episodio y en el caso de uno establece que se borra lo que se sabía y
se confía en el nuevo episodio.
 Factor de descuento (discount rate): también es un valor entre 0 y 1 que indica
cómo de importante es el largo plazo respecto del corto. Un valor de 0 significa
que solo son importantes los refuerzos inmediatos, mientras que un valor de 1
implica que solo son importantes los refuerzos a largo plazo.

En ambos parámetros es interesante moverse fuera de los extremos, pues en este

caso proporcionan poca utilidad. La velocidad de aprendizaje se puede ir ajustando

en función de la incertidumbre respecto de los estados siguientes. Por otro lado, el
factor de descuento establece el balance entre el refuerzo inmediato y a largo plazo.

Aprendizaje Automático
11
Tema 12. Ideas clave
12.4. Referencias bibliográficas

Sutton, R. S. y Barto, A. (1998). Reinforcement Learning: An Introduction. Cambridge:

MIT Press.

Taweh Beysolow II, S. P. (2019). Applied Reinforcement Learning with Python. San
Francisco, CA: Apress.
© Universidad Internacional de La Rioja (UNIR)

Aprendizaje Automático
12
Tema 12. Ideas clave
Lo + recomendado

No dejes de leer

Introducción al aprendizaje con refuerzo y OpenAI

Francis, J. (13 de julio de 2017). Introduction to reinforcement learning and OpenAI Gym.

Blog post introductorio del aprendizaje por refuerzo y ejemplos de uso de la librería
Gym de OpenAI para desarrollar y probar algoritmos de aprendizaje por refuerzo.

Accede al post a través del aula virtual o desde la siguiente dirección web:
[Link]
openai-gym

Taller de aprendizaje por refuerzo

University of California, Berkeley. (s. f.). Reinforcement Learning.

Ejemplo de un modelo de aprendizaje por refuerzo para implementar la lógica del

juego de pacman utilizando Python y estrategias de Q-learning.

Accede a la página a través del aula virtual o desde la siguiente dirección web:
© Universidad Internacional de La Rioja (UNIR)

[Link]
html

Aprendizaje Automático
13
Tema 12. Lo + recomendado
No dejes de ver

Aprendizaje por refuerzo

Vídeo demostrativo del uso del aprendizaje por refuerzo (Q-learning) con Python
para encontrar el camino más corto entre dos puntos.

Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
[Link]

Tutorial de Reinforcement Learning

Vídeo tutorial de Microsoft Research sobre deep learning. Proporciona una

descripción de los procesos de decisión de Markov (MDP) incluyendo los métodos de
programación dinámica de Monte Carlo. Se centra en la combinación de estos
métodos con aproximaciones paramétricas para buscar buenas soluciones a los
problemas que de otra forma serían muy largos de ser llevados a cabo.

Accede al vídeo al través del aula virtual o desde la siguiente dirección web:
© Universidad Internacional de La Rioja (UNIR)

[Link]

Aprendizaje Automático
14
Tema 12. Lo + recomendado
Introduction to Reinforcement Learning.

Charla de David Silver sobre aprendizaje por refuerzo con bastantes ejemplos
intuitivos y la aplicación en los juegos.

Accede al vídeo a través del aula virtual o desde la siguiente dirección web:
[Link]
© Universidad Internacional de La Rioja (UNIR)

Aprendizaje Automático
15
Tema 12. Lo + recomendado
+ Información

A fondo

Practical Reinforcement Learning

Farrukh, S. M. (2017). Practical Reinforcement Learning. Packt.

Este libro te va a ayudar a dominar diferentes técnicas de aprendizaje de refuerzo y su

implementación práctica usando OpenAI Gym, Python y Java.

Accede al libro a través del aula virtual o desde la siguiente dirección web:
[Link]
Akhtar/dp/1787128725/ref=sr_1_3?ie=UTF8&qid=1519947114&sr=8-3

Bibliografía

Sutton, R. S. y Barto, A. (1998). Reinforcement Learning: An Introduction. MIT Press.

Aprendizaje Automático
16
Tema 12. + Información
Test
1. El aprendizaje por refuerzo:
A. Es un tipo de aprendizaje supervisado.
B. Es un tipo de aprendizaje no supervisado.
C. Ninguna de las anteriores es correcta.

2. El aprendizaje por refuerzo:

A. Va aprendiendo del feedback obtenido por cada acción.
B. Se utiliza en las situaciones en las que un agente puede observar el entorno.
C. Comprende los algoritmos que son capaces de aprender del entorno.

3. En un proceso de decisión de Markov:

A. Solo se tienen en cuenta los estados posteriores.
B. Solo se tienen en cuenta el estado previo.
C. Se tienen en cuenta el estado previo y los siguientes.

4. En el algoritmo Q-learning:
A. Si una acción en un estado es la causante de un resultado no deseado, esta
acción no se usará en el futuro.
B. Si una acción en un estado es la causante de un resultado deseado, se
aplicará esa acción es ese estado.
C. La mejora del algoritmo Q-learning es porque no es necesario utilizar el
estado.
© Universidad Internacional de La Rioja (UNIR)

Aprendizaje Automático
17
Tema 12. Test
5. Los parámetros de learning rate y discount rate del algoritmo Q-learning:
A. Es mejor que estén cercanos a 1.
B. Es mejor que estén cercanos a 0.
C. Idealmente deberían estar alejados de los extremos.

6. La ecuación de Bellman:
A. Actualmente está en desuso.
B. Se utiliza como punto inicial del aprendizaje.
C. Permite definir el valor de forma recursiva.

7. El algoritmo de aprendizaje por refuerzo de fuerza bruta:

A. Es una forma óptima de solucionar el problema.
B. Explora todas las posibles combinaciones.
C. Es un método costoso.

8. El algoritmo Q-learning:
A. Únicamente tiene en cuenta las recompensas a largo plazo.
B. El valor Q contiene la suma de todas las posibles recompensas futuras.
C. Tiene en cuenta tanto las recompensas a largo plazo como a corto.

9. La velocidad de aprendizaje del algoritmo Q-learning:

A. Es un valor entre 0 y 1 que indica cuanto se puede aprender en cada episodio.
B. En el caso de 0 no se aprende nada.
C. En el caso de 1 se borra lo anterior y se aprende de nuevo.

10. El factor de descuento del algoritmo Q-learning:

A. Es un valor entre 0 y 100 que indica la importancia del largo plazo respecto
© Universidad Internacional de La Rioja (UNIR)

del corto plazo.

B. Es un valor entre 0 y 1 que indica la importancia del largo plazo respecto del
corto.
C. Es un valor entre 0 y 1 que indica la importancia de las instancias.

Aprendizaje Automático
18
Tema 12. Test

También podría gustarte

Aprendizaje Por Refuerzo
Aún no hay calificaciones
Aprendizaje Por Refuerzo
4 páginas
UD4 - Aprendizaje Por Refuerzo y Aplicaciones
Aún no hay calificaciones
UD4 - Aprendizaje Por Refuerzo y Aplicaciones
70 páginas
04 Aprendizaje Por Refuerzo YAplicaciones
Aún no hay calificaciones
04 Aprendizaje Por Refuerzo YAplicaciones
45 páginas
Introducción al Aprendizaje por Refuerzo
Aún no hay calificaciones
Introducción al Aprendizaje por Refuerzo
44 páginas
Aprendizaje por Refuerzo: Conceptos y Aplicaciones
Aún no hay calificaciones
Aprendizaje por Refuerzo: Conceptos y Aplicaciones
22 páginas
Aprendizaje Por Refuerzo
Aún no hay calificaciones
Aprendizaje Por Refuerzo
9 páginas
Aprendizaje Por Refuerzo Apuntes
Aún no hay calificaciones
Aprendizaje Por Refuerzo Apuntes
21 páginas
Aprendizaje por Refuerzo en Robots
Aún no hay calificaciones
Aprendizaje por Refuerzo en Robots
19 páginas
Aprendizaje Por Refuerzo - Apunte - V1-2
Aún no hay calificaciones
Aprendizaje Por Refuerzo - Apunte - V1-2
19 páginas
Introducción al Aprendizaje por Refuerzo
Aún no hay calificaciones
Introducción al Aprendizaje por Refuerzo
36 páginas
Resumen I.A M3 - M4
Aún no hay calificaciones
Resumen I.A M3 - M4
25 páginas
Aprendizaje Refuerzo
Aún no hay calificaciones
Aprendizaje Refuerzo
11 páginas
Transparencias-Tema12 2 Presencial-Ic
Aún no hay calificaciones
Transparencias-Tema12 2 Presencial-Ic
25 páginas
Algoritmos de Aprendizaje por Refuerzo
Aún no hay calificaciones
Algoritmos de Aprendizaje por Refuerzo
9 páginas
Tarea Semana6 Bryan Villarruel
Aún no hay calificaciones
Tarea Semana6 Bryan Villarruel
10 páginas
Trabajo 1 BMA20 (Tema 17)
Aún no hay calificaciones
Trabajo 1 BMA20 (Tema 17)
32 páginas
Sistemas Cognitivos Artificiales - 8 Agentes Inteligentes. Deep Reinforcement Learning
Aún no hay calificaciones
Sistemas Cognitivos Artificiales - 8 Agentes Inteligentes. Deep Reinforcement Learning
27 páginas
Monte Carlo
Aún no hay calificaciones
Monte Carlo
6 páginas
Fundamentos de la Inteligencia Artificial
Aún no hay calificaciones
Fundamentos de la Inteligencia Artificial
5 páginas
Aprendizaje Automatico
Aún no hay calificaciones
Aprendizaje Automatico
4 páginas
TFG Sandra Rudkowskyj Hernanz
Aún no hay calificaciones
TFG Sandra Rudkowskyj Hernanz
94 páginas
Aprendizaje por Refuerzo: Guía Básica
Aún no hay calificaciones
Aprendizaje por Refuerzo: Guía Básica
27 páginas
Aprendizaje Refuerzo en Laberintos
Aún no hay calificaciones
Aprendizaje Refuerzo en Laberintos
3 páginas
Aprendizaje Automático
Aún no hay calificaciones
Aprendizaje Automático
9 páginas
Técnicas de Clasificación y Aprendizaje por Refuerzo
Aún no hay calificaciones
Técnicas de Clasificación y Aprendizaje por Refuerzo
2 páginas
Características de Las Redes Neuronales
Aún no hay calificaciones
Características de Las Redes Neuronales
3 páginas
Introducción al Aprendizaje por Refuerzo
Aún no hay calificaciones
Introducción al Aprendizaje por Refuerzo
3 páginas
Aprendizajeporesfuerzo 7 Mo Semestre
Aún no hay calificaciones
Aprendizajeporesfuerzo 7 Mo Semestre
23 páginas
Presentacion Q Learning
Aún no hay calificaciones
Presentacion Q Learning
13 páginas
Aprendizaje Automático
Aún no hay calificaciones
Aprendizaje Automático
9 páginas
Aprendizaje Automático - Wikipedia, La Enciclopedia Libre
Aún no hay calificaciones
Aprendizaje Automático - Wikipedia, La Enciclopedia Libre
9 páginas
Aprendizaje Automático: Índice
Aún no hay calificaciones
Aprendizaje Automático: Índice
10 páginas
Técnicas de Aprendizaje Automatizado
Aún no hay calificaciones
Técnicas de Aprendizaje Automatizado
7 páginas
Articulo Tic Tac Toe
Aún no hay calificaciones
Articulo Tic Tac Toe
13 páginas
Cómo aprende un sistema de IA
Aún no hay calificaciones
Cómo aprende un sistema de IA
6 páginas
Tema 1 Aprendizaje Automatico
Aún no hay calificaciones
Tema 1 Aprendizaje Automatico
15 páginas
Modulo III
Aún no hay calificaciones
Modulo III
11 páginas
UNAHUR Clase 5 Aprendizaje
Aún no hay calificaciones
UNAHUR Clase 5 Aprendizaje
22 páginas
Tipos de Aprendizaje Automático
Aún no hay calificaciones
Tipos de Aprendizaje Automático
2 páginas
Modelos de Entrenamiento de Inteligencia Artificial
Aún no hay calificaciones
Modelos de Entrenamiento de Inteligencia Artificial
1 página
Clasificacion ML
Aún no hay calificaciones
Clasificacion ML
5 páginas
1 Introduccion
Aún no hay calificaciones
1 Introduccion
17 páginas
Procesos de Decisión de Markov y RL
Aún no hay calificaciones
Procesos de Decisión de Markov y RL
54 páginas
Refuerzo PDF
Aún no hay calificaciones
Refuerzo PDF
38 páginas
Machine PDF
Aún no hay calificaciones
Machine PDF
38 páginas
El Aprendizaje Automatico
Aún no hay calificaciones
El Aprendizaje Automatico
6 páginas
Template Propuesta de Grado
Aún no hay calificaciones
Template Propuesta de Grado
6 páginas
Charla de Cientifico
Aún no hay calificaciones
Charla de Cientifico
14 páginas
Aprendizaje Automático en Agentes AI
100% (1)
Aprendizaje Automático en Agentes AI
15 páginas
Programa
Aún no hay calificaciones
Programa
2 páginas
Matemáticas para Machine Learning
Aún no hay calificaciones
Matemáticas para Machine Learning
4 páginas
Condicionamiento Operante y Reforzamiento
Aún no hay calificaciones
Condicionamiento Operante y Reforzamiento
5 páginas
Graphs in Machine Learning Applications I PDF
Aún no hay calificaciones
Graphs in Machine Learning Applications I PDF
115 páginas
Foro Inteligencia Artificial Innovacion Tecnologica, Ventaja O Amenaza Aprendizaje Automático
Aún no hay calificaciones
Foro Inteligencia Artificial Innovacion Tecnologica, Ventaja O Amenaza Aprendizaje Automático
3 páginas
Transparencias Tema10
Aún no hay calificaciones
Transparencias Tema10
44 páginas
Deep Learning en Snake y ML Práctico
Aún no hay calificaciones
Deep Learning en Snake y ML Práctico
25 páginas
Crea Tu Propia Ai Unidad1
Aún no hay calificaciones
Crea Tu Propia Ai Unidad1
10 páginas
QLearning Manual
Aún no hay calificaciones
QLearning Manual
13 páginas
Guia de Actividades y Rúbrica de Evaluación Tarea 1 - Reconocimiento Del Curso y Conceptos Principales
0% (1)
Guia de Actividades y Rúbrica de Evaluación Tarea 1 - Reconocimiento Del Curso y Conceptos Principales
9 páginas
Modelo Iceberg
Aún no hay calificaciones
Modelo Iceberg
7 páginas
Habilidades del Siglo XXI en Educación
Aún no hay calificaciones
Habilidades del Siglo XXI en Educación
3 páginas
El Asombro. Primer Origen de La Filosofía
100% (2)
El Asombro. Primer Origen de La Filosofía
2 páginas
Cultura Estética Musical en Ecuador
Aún no hay calificaciones
Cultura Estética Musical en Ecuador
54 páginas
Guía Conectores 7º
0% (1)
Guía Conectores 7º
7 páginas
Instrumento para La Visita A Círculos de Estudio
Aún no hay calificaciones
Instrumento para La Visita A Círculos de Estudio
8 páginas
Garzon Marilyn Mapa Conceptual Metaforas
Aún no hay calificaciones
Garzon Marilyn Mapa Conceptual Metaforas
1 página
Psicologia
Aún no hay calificaciones
Psicologia
1 página
NEURO5 TPVIRTUAL Nº5-TIC1-Neuroaprendizajes (2020)
Aún no hay calificaciones
NEURO5 TPVIRTUAL Nº5-TIC1-Neuroaprendizajes (2020)
6 páginas
Racionalismo y Fenomenología en Filosofía
Aún no hay calificaciones
Racionalismo y Fenomenología en Filosofía
8 páginas
Revista E-Cognitas 20193107
Aún no hay calificaciones
Revista E-Cognitas 20193107
63 páginas
Biografía de Enrique Pichón Riviére
100% (1)
Biografía de Enrique Pichón Riviére
4 páginas
Exposicion Yosmar
Aún no hay calificaciones
Exposicion Yosmar
27 páginas
Guastini, R. (1999) - Distinguiendo. Estudios de Teoría y Metateoría Del Derecho. (J. Ferrer Beltrán, Trad.) - Barcelona, Gedisa PDF
100% (2)
Guastini, R. (1999) - Distinguiendo. Estudios de Teoría y Metateoría Del Derecho. (J. Ferrer Beltrán, Trad.) - Barcelona, Gedisa PDF
208 páginas
Educacion Dogmatica y Educacion Critica
100% (2)
Educacion Dogmatica y Educacion Critica
3 páginas
Roland Charnay - Presentación
100% (1)
Roland Charnay - Presentación
11 páginas
Libros de Francisco Mora
0% (1)
Libros de Francisco Mora
2 páginas
Metodologías Científicas en Psicología by Leon García, Orfelio G. Montero García-Celay, Ignacio
100% (1)
Metodologías Científicas en Psicología by Leon García, Orfelio G. Montero García-Celay, Ignacio
170 páginas
Cuadro Comparativo Con Los Paradigmas Epistemológicos de La Investigación Científica.
100% (1)
Cuadro Comparativo Con Los Paradigmas Epistemológicos de La Investigación Científica.
9 páginas
Conocimiento para Transformar Realidades
Aún no hay calificaciones
Conocimiento para Transformar Realidades
3 páginas
Shulman Paradigmas y Programas de Investigación
50% (2)
Shulman Paradigmas y Programas de Investigación
4 páginas
Aprendizajes Esperados
Aún no hay calificaciones
Aprendizajes Esperados
4 páginas
Cuadro Comparativo (Conductismo y Humanismo)
Aún no hay calificaciones
Cuadro Comparativo (Conductismo y Humanismo)
9 páginas
Piaget vs Vygotsky: Comparativa SEO
Aún no hay calificaciones
Piaget vs Vygotsky: Comparativa SEO
2 páginas
Test de Habilidades Mentales Primarias HMP PDF
Aún no hay calificaciones
Test de Habilidades Mentales Primarias HMP PDF
20 páginas
Trabajo Sobre La Teoria de Caso
100% (1)
Trabajo Sobre La Teoria de Caso
4 páginas
Aprendizaje Permanente en Organizaciones
Aún no hay calificaciones
Aprendizaje Permanente en Organizaciones
5 páginas
Sesión Ideación PPT La Compañía - Talleristas
Aún no hay calificaciones
Sesión Ideación PPT La Compañía - Talleristas
36 páginas
Voz Pasiva Frances
Aún no hay calificaciones
Voz Pasiva Frances
7 páginas