0% ont trouvé ce document utile (0 vote)

513 vues34 pages

QLearning

Ce document présente la méthode d'apprentissage par renforcement Q-Learning. Il décrit les concepts clés comme les états, les actions et les récompenses. Un exemple illustratif est également fourni pour montrer comment la matrice Q est mise à jour à chaque épisode.

Transféré par

Ahmed Ajebli

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

513 vues34 pages

QLearning

Transféré par

Ahmed Ajebli

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

La méthode Q-Learning

Présentée par : Chaymaa Lamini

Plan

 Introduction
 Méthodes d’optimisation
 Apprentissage par renforcement
 La méthodes Qlearning
 Exemple d’application
 Implémentation
 Mini Projet à faire
Introduction

 Pour un robot A évoluant dans un environnement W donné,

le problème général de planification consiste à déterminer
pour A un mouvement lui permettant de se déplacer entre
deux configurations données tout en respectant un certain
nombre de contraintes et de critères.

 Les critères à satisfaire pendant la résolution du problème

de planification concernent le fait qu’une solution doit
optimiser une fonction de coût exprimée en terme de la
distance parcourue par le robot entre les deux configurations
extrémités, de la durée ou de l’énergie nécessaires à l’exécution
de son mouvement.
Introduction

Path Planning

Global Path Planning Local Path Planning

Environnement statique : Les obstacles sont Environnement dynamique : Les obstacles sont
connus. inconnus
Le robot connais l’emplacement de tous les Le robot découvre l’environnement au fur et
Obstacles avant le début du navigation. mesure de son mouvement en utilisant des
Sensors pour localiser l’emplacement, la forme
et la taille des obstacles
Méthodes d’optimisation

Efficacité
Méthodes d’optimisation

Validité
Méthodes d’optimisation
Méthodes d’optimisation
Méthodes d’optimisation
Apprentissage par renforcement

• Un agent apprend s’il améliore sa performance sur des tâches

futures avec l’expérience,

Pourquoi programmer des agents qui apprennent ?

Apprentissage par renforcement
 Il existe plusieurs sortes d’apprentissage :

 L’apprentissage supervisé :
ex.: reconnaître les âges des personnes à l’aide des exemples de photos.

 L’apprentissage non supervisé:

ex.: identifier différents thèmes d’articles de journaux en regroupant les articles similaires (« clustering »)

 L’apprentissage par renforcement:

ex.: Robot qui apprend à naviguer dans un environnement
Apprentissage par renforcement

Motivation :

Pour obtenir un agent intelligent qui joue bien aux échecs, il faudrait amasser des
paires (état du jeu, mouvement à jouer) d’un joueur expert

Amasser de telles données peut être fastidieux ou trop coûteux.

On préférerait que l’agent apprenne seulement à partir du résultat de parties qu’il joue.

 Si l’agent a gagné, c’est que son plan (sa politique) de jeu était bon.
 Si l’agent perd, c’est qu’il y a une faiblesse derrière sa façon de jouer.
Apprentissage par renforcement
Apprentissage par renforcement

Cause à effet

 Le terme «cause à effet» pour l’apprentissage par renforcement peut être caractérisé
par les étapes suivantes :

1. L'agent observe un état d'entrée.

2. Une action est déterminée par une fonction de prise de décision (politique).
3. L'action est effectuée.
4. L'agent reçoit une résultât en fonction de son environnement.
5. Informations sur le résultât donnée pour cette état ou action est enregistrée.

En effectuant des actions, on observe les récompenses qui en résultent,

afin de déterminer la meilleure action pour un état donné.
Apprentissage par renforcement
 L’apprentissage par renforcement s’intéresse au cas où l’agent doit apprendre à agir
seulement à partir des récompenses ou renforcements

● Données du problème d’apprentissage:

 L’agent agit sur son environnement
 Reçoit une retro-action sous-forme de récompense (renforcement)
 Son but est de maximiser la somme des recompenses espérés

● Objectif: Apprendre à maximiser somme des recompenses

La méthode Qlearning

Qlearning : Principe

 L’agent ne connaıt pas les états ou se trouve les récompenses, ne connaıt pas a priori
l’état d’arrivée d’une action.

 Il commence donc par choisir des actions aléatoirement, il explore.

 Au bout d’un certain temps ou lorsqu’il a atteint un état but, le système reprend une recherche de
solution à partir de l’état initial.
La méthode Qlearning

Qlearning : Principe

 La caractéristique distinctive de Q-Learning est sa capacité à choisir entre des

récompenses immédiates et des récompenses retardées.

 A chaque étape du temps, un agent observe un état S, puis choisit et applique une action a.
Alors que l’agent passe à l'état s + 1, l'agent reçoit une récompense R(s,a).

 Le but de l’apprentissage est de trouver l'ordre séquentiel des actions qui maximise la somme
des récompense future, conduisant ainsi au chemin le plus court du début à la fin.
La méthode Qlearning
La méthode Qlearning
La méthode Qlearning

Chaque pièce comme nœud, et chaque porte comme un lien.

La méthode Qlearning

 Les portes qui mènent immédiatement à l'objectif

ont une récompense instantanée de 100

 Les autres portes qui ne sont pas directement connectés

à la salle cible ont une récompense nulle

Dans Q-learning, l'objectif est d'atteindre

l'état avec la récompense la plus élevée.
La méthode Qlearning

Imaginons notre agent comme un robot qui veut

apprendre par l'expérience.
L'agent peut passer d'une pièce à une autre mais
n'a aucune connaissance de l'environnement
et ne sait pas quelle séquence de portes mène
à l'extérieur

Maintenant, supposons que nous avons un agent dans la salle 2 et nous voulons que l'agent d'apprendre à atteindre la salle 5
La méthode
Apprentissage parQlearning
renforcement

La terminologie de Q-Learning comprend les termes «état» et «action».

un ensemble d’états S (incluant l’éta initial s0 et l’état finale Sf)

un ensemble d’actions possibles Actions(s) (ou A(s)) lorsque
je me trouve à l’état s

Chaque pièce, y compris l'extérieur est appelée un «état», et le

mouvement de l'agent d'une pièce à l'autre sera appelé une «action».
La méthode Qlearning

Nous pouvons mettre le diagramme d'état et les valeurs de récompense

instantanée dans la table de récompense suivante :

Les -1 dans le tableau représentent des valeurs nulles (c'est-à-dire, où il n'y a pas de lien entre les nœuds)
La méthode
Apprentissage parQlearning
renforcement
Maintenant, nous allons ajouter une matrice similaire, «Q», au cerveau de notre agent, représentant la mémoire
de ce que l'agent a appris par l'expérience. Les lignes de la matrice Q représentent l'état courant de l'agent et
les colonnes représentent les actions possibles menant à l'état suivant

L'agent commence à ne rien savoir, la matrice Q est initialisée à zéro

La méthode
Apprentissage parQlearning
renforcement

La règle de transition de Q Learning est une formule très simple:

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Selon cette formule, une valeur affectée à un élément spécifique de la matrice Q est égale à la somme de la valeur
correspondante dans la matrice R et du paramètre d'apprentissage Gamma multiplié par la valeur maximale de
Q pour toutes les actions possibles dans l'état suivant.

Chaque exploration est un épisode

Dans chaque épisode l'agent se déplace de l'état initial à l'état finale
Chaque fois que l'agent arrive à l'état finale, le programme passe à l'épisode suivant.
La méthode
Apprentissage parQlearning
renforcement
La méthode Qlearning

L'algorithme Q-Learning se déroule comme suit:

1. Set the gamma parameter, and environment rewards in matrix R.

2. Initialize matrix Q to zero.
3. For each episode:
Select a random initial state.
Do While the goal state hasn't been reached.

• Select one among all possible actions for the current state.
• Using this possible action, consider going to the next state.
• Get maximum Q value for this next state based on all possible actions.
• Compute: Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
• Set the next state as the current state.

End Do
End For
La méthode
Apprentissage parQlearning
renforcement
La méthode Qlearning

1. Set current state = initial state.

2. From current state, find the action with the highest Q value.
3. Set current state = next state.
4. Repeat Steps 2 and 3 until current state = goal state.
La méthode Qlearning
Exemple
Gamma = 0,8
L'état initial comme Room 1.
Initialiser la matrice Q comme matrice nulle.
La méthode Qlearning
λ = 0,8
Exemple Current state : 1
Next State : 5

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100
La méthode Qlearning
Exemple λ = 0,8
Current state : 3
Next State : 1

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 * Max(0, 100) = 80
La méthode Qlearning
Exemple
λ = 0,8
Current state : 1
Next state : 5

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * Max(0,0,0) = 100
La méthode Qlearning

Exemple

λ = 0,8
Current state : 4
Next state: 3

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

Q(4, 3) = R(4, 3) + 0.8 * Max[Q(3, 1), Q(3, 2), Q(3, 4)] = 0 + 0.8 * Max(80,0,0) = 64
Algorithm to utilize the Q matrix:

1. Set current state = initial state.

2. From current state, find the action
with the highest Q value.
3. Set current state = next state.
4. Repeat Steps 2 and 3 until
current state = goal state.

La séquence optimale est :

2 3 1 5
Mini Projet : Path planning avec la méthode Qlearning

Vous aimerez peut-être aussi

Introduction Lapprentissage Par Renforcement Ensps
Pas encore d'évaluation
Introduction Lapprentissage Par Renforcement Ensps
24 pages
Apprentissage Par Renforcement
Pas encore d'évaluation
Apprentissage Par Renforcement
14 pages
Cours Apprentissage Renforcement
Pas encore d'évaluation
Cours Apprentissage Renforcement
2 pages
LApprentissage Par Renforcement
100% (1)
LApprentissage Par Renforcement
29 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
67 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Introduction Au Machine Learning
Pas encore d'évaluation
Introduction Au Machine Learning
20 pages
TD5 RL
Pas encore d'évaluation
TD5 RL
16 pages
Cours 81
100% (1)
Cours 81
28 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
COURS - ML - Part 1
Pas encore d'évaluation
COURS - ML - Part 1
41 pages
Examen d'Optimisation en RO
Pas encore d'évaluation
Examen d'Optimisation en RO
4 pages
TP 2 Clustering
Pas encore d'évaluation
TP 2 Clustering
2 pages
Cours Archi 2eme Ing Partie 01
Pas encore d'évaluation
Cours Archi 2eme Ing Partie 01
87 pages
Processus Ornstein-Uhlenbeck : Modélisation et Applications
Pas encore d'évaluation
Processus Ornstein-Uhlenbeck : Modélisation et Applications
13 pages
Serie 1
Pas encore d'évaluation
Serie 1
5 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
49 pages
NLP
100% (1)
NLP
4 pages
Métaheuristique Colonie Des Fourmis
100% (1)
Métaheuristique Colonie Des Fourmis
19 pages
LED3SI - Module - M354 - Chap1-Chap2
Pas encore d'évaluation
LED3SI - Module - M354 - Chap1-Chap2
39 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
Output 4
Pas encore d'évaluation
Output 4
3 pages
Algorithmique Avancé Et Complexité - Algorithme A Etoile PDF
Pas encore d'évaluation
Algorithmique Avancé Et Complexité - Algorithme A Etoile PDF
26 pages
Introduction à l'IA et Machine Learning
Pas encore d'évaluation
Introduction à l'IA et Machine Learning
2 pages
Examen OCclass 2008 Corrigé
Pas encore d'évaluation
Examen OCclass 2008 Corrigé
6 pages
Pretraitement Des Donnees
Pas encore d'évaluation
Pretraitement Des Donnees
6 pages
Chapitre 4
0% (1)
Chapitre 4
64 pages
Algorithmes de Recherche pour Résolution de Problèmes
Pas encore d'évaluation
Algorithmes de Recherche pour Résolution de Problèmes
15 pages
Cours d'Informatique: Architecture PC
Pas encore d'évaluation
Cours d'Informatique: Architecture PC
71 pages
Notes de Cours Ensemble Learning
Pas encore d'évaluation
Notes de Cours Ensemble Learning
6 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Programmation dynamique et optimisation
Pas encore d'évaluation
Programmation dynamique et optimisation
29 pages
Examen ML: Classification et Préparation
Pas encore d'évaluation
Examen ML: Classification et Préparation
6 pages
Cours Sur Les Fondements de L'IA en Master 2
Pas encore d'évaluation
Cours Sur Les Fondements de L'IA en Master 2
5 pages
Agents Clés de l'E-learning
Pas encore d'évaluation
Agents Clés de l'E-learning
11 pages
Introduction aux SVM et classification
Pas encore d'évaluation
Introduction aux SVM et classification
18 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Cours Intelligence Artificielle IA (S6)
Pas encore d'évaluation
Cours Intelligence Artificielle IA (S6)
48 pages
Cours IA - Chapitre 2 - R-Seaux de Neurones
Pas encore d'évaluation
Cours IA - Chapitre 2 - R-Seaux de Neurones
24 pages
Analyse Et Prédiction Des Crises Cardiaques
Pas encore d'évaluation
Analyse Et Prédiction Des Crises Cardiaques
30 pages
Application of Yolo On Mask Detection
Pas encore d'évaluation
Application of Yolo On Mask Detection
7 pages
Cours 3
Pas encore d'évaluation
Cours 3
26 pages
Structure et Applications des Scripts
Pas encore d'évaluation
Structure et Applications des Scripts
20 pages
TD 1 PLF
Pas encore d'évaluation
TD 1 PLF
2 pages
Apprentissage Supervisé Avec Python: Objectifs
Pas encore d'évaluation
Apprentissage Supervisé Avec Python: Objectifs
4 pages
Clustering et Distances en ML
Pas encore d'évaluation
Clustering et Distances en ML
129 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
27 pages
Apprentissage Supervise Et Non Supervise
Pas encore d'évaluation
Apprentissage Supervise Et Non Supervise
11 pages
02 Algorithmes
Pas encore d'évaluation
02 Algorithmes
102 pages
Introduction aux Agents Intelligents
Pas encore d'évaluation
Introduction aux Agents Intelligents
3 pages
Chapitre 2. Regression Linéaire V1
100% (1)
Chapitre 2. Regression Linéaire V1
15 pages
Cours 02 - Représentation Et Résolution de Problèmes en IA
Pas encore d'évaluation
Cours 02 - Représentation Et Résolution de Problèmes en IA
41 pages
Cours Apprentissage Automatique-1 ch1
Pas encore d'évaluation
Cours Apprentissage Automatique-1 ch1
68 pages
Systèmes Experts : Définition et Architecture
Pas encore d'évaluation
Systèmes Experts : Définition et Architecture
47 pages
Présentation Du Cours
Pas encore d'évaluation
Présentation Du Cours
6 pages
Partie1 Cours
Pas encore d'évaluation
Partie1 Cours
40 pages
Introduction aux Réseaux Bayésiens
Pas encore d'évaluation
Introduction aux Réseaux Bayésiens
19 pages
Exercices Corrigés D'algorithmique
Pas encore d'évaluation
Exercices Corrigés D'algorithmique
16 pages
Q-Learning : Algorithme et Applications
Pas encore d'évaluation
Q-Learning : Algorithme et Applications
39 pages
Book 1
Pas encore d'évaluation
Book 1
2 pages
Attestation 1739631413
Pas encore d'évaluation
Attestation 1739631413
1 page
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
63 pages
Introduction aux SVM et leur optimisation
Pas encore d'évaluation
Introduction aux SVM et leur optimisation
139 pages
Exercices sur la loi de Bernoulli
Pas encore d'évaluation
Exercices sur la loi de Bernoulli
20 pages
Corrigé - TD Ocl Pour m1 Sic
100% (3)
Corrigé - TD Ocl Pour m1 Sic
13 pages