Q-Learning
Réalisé Par :
Ben Alaya Rabii
Ben Othmen Mokhtar
Chabbouh Oussama
Chebbi Mohamed Amine
Rourou Oussama
Ferjani Mariem
Wadaa Rihem 1
PLAN
Présentation du Projet
Processus d’apprentissage du Q-Learning
Utilisation Du Q-Learning
Conclusion
2
Présentation Du Projet
3
Introduction
L’ Algorithme Q-Learning, est une
technique d'apprentissage par
renforcement les plus utilisées
4
Qu’est-ce que le
Q-Learning ?
5
Le Q-learning est un algorithme d’apprentissage
basé sur la valeur et se concentre sur
l’optimisation de la fonction de valeur en fonction
de l’environnement ou du problème.
Le processus peut être automatique et simple. Le
modèle stocke toutes les valeurs dans un tableau
Q.
6
Il permet de comprendre rapidement le
mécanisme d'apprentissage de nombreux
modèles. Il permet également d'identifier la
meilleure action à entreprendre dans un
contexte bien précis.
7
Le Q-learning est capable d'effectuer des actions
aléatoires sans tenir compte de la politique
actuelle.
Cet algorithme cherche surtout à apprendre une
politique qui maximise la récompense totale.
Le Q-learning met en évidence l'utilité de l'action
à accomplir pour obtenir une récompense.
8
Processus
d’apprentissage du
Q-Learning
9
L’exemple de jeu suivant
vous aidera à
comprendre le concept
de Q-learning
10
01
Initialisation
11
Votre agent, lorsqu’il jouera pour la première
fois au jeu, n’aura aucune connaissance.
Nous supposerons donc que la table Q est
égale à zéro.
12
1
01 02
Exploration
Initialisation Ou
Exploitation
13
Travaille pour un nombre Il n’a
plus élevé pendant un aucune expérience
certain temps
Exploite Explore
Il recueillera des informations Il essaiera de trouver de
à partir de la table des nouveaux moyens
questions
14
Vous pouvez gérer les ajustements entre deux
conditions, l’exploration et l’exploitation, en ajoutant
un epsilon.
Incluez l’epsilon dans la fonction de valeur. Lorsque
nous commençons avec le modèle et que nous
n’incluons aucune information, vous devez préférer
l’exploration.
Cependant, une fois que votre modèle commence à
s’adapter à l’environnement, vous devez suivre
l’exploitation. En termes simples, l’agent prendra des
mesures à l’étape deux, et les choix sont l’exploration
et l’exploitation.
15
01 02 03
Exploration Mesurer la
Initialisation Ou récompense
Exploitation
16
Lorsque l’agent décide de l’action à choisir, il
agit. Cela conduit l’agent à l’étape suivante,
qui est l’état “S”.
Dans cet état, l’agent effectue quatre actions.
Chacune de ces actions dirigera l’agent vers
différents scores de récompense.
17
si l’agent choisit l’état 5 à partir de l’état 1,
il ira plus loin en fonction de l’expérience de
cet état.
L’agent peut alors choisir de passer à l’état 6
ou à l’état 9 en fonction de l’expérience
antérieure et de l’éventuelle attente de
récompense.
18
01 02 03 04
Exploration Mesurer la Mise à jour
Initialisation
Ou récompense du tableau Q
Exploitation
19
L’agent calculera la valeur de la récompense.
L’algorithme utilisera l’équation de Bellman
pour mettre à jour la valeur à l’État “S”.
Q*(s,a) = E [R t + 1 + γmaxa′q∗(s′,a′)
20
Voici
quelques
terminologies
Taux Taux
d’apprentissage d’actualisation
Est la constante. Il permet
Une constante qui
d’escompter ce que sera la
détermine le poids que
future récompense. En termes
vous devez ajouter dans la
simples, le taux d’actualisation
table des questions pour
aide à équilibrer l’effet des
générer une nouvelle
récompenses à venir sur les
valeur au lieu de l’ancienne.
nouvelles valeurs.21
Une fois que l’agent a franchi
toutes ces étapes en apprenant il obtiendra des valeurs actualisées
sur la table Q.
de manière significative :
Maintenant, il est simple d’utiliser la
table Q pour cartographier les états.
Chaque agent d’état sélectionnera
une action qui le mènera à l’état
ayant la valeur Q la plus élevée..
22
Exemple réel du
Q-function
23
Action :
1 2 3
4 5 6
Q-Function
7 8 9
2
Q(st, a t) = E[R + yR + y R + …|s , a ]
t+1 t+2 t+3 t t
24
Utilisation du Q learning
25
De nombreuses start-ups innovantes se servent
aujourd'hui de l'apprentissage par renforcement
pour optimiser l'utilisation des équipements et des
machines.
Grâce à son fort potentiel, le Q-learning peut être
utilisé dans de nombreux domaines.
26
La fouille de
texte
Domaines
D’utilisation
27
Text Mining
Ils constituent également un domaine
d'application du reinforcement learning. Pour
développer un système capable de produire
des résumés de longs textes, les chercheurs
d'une entreprise spécialisée dans le cloud
computing ont trouvé une solution :
combiner à la fois le renforcement learning et
un modèle avancé de génération de texte
contextuel. À partir de données exploitées,
l'agent IA peut produire de façon autonome de
petits textes cohérents.
28
La fouille de La robotique
texte
Domaines
D’utilisation
29
La Robotique
En automatisation industrielle et en
robotique, le Q Learning permet à la
machine de créer un système de
contrôle adaptatif. L'action de l'agent
IA permet à la machine d'apprendre de
son propre comportement et de son
expérience.
30
La fouille de La robotique
texte
Domaines
D’utilisation
La santé
31
La santé
Le domaine de la santé emploie des
applications de renforcement learning.
Q learning est utilisé pour les essais :
Dosage de
Cliniques médicaments
Optimisation de la
politique
de traitement des
maladies 32
La fouille de La robotique
texte
Domaines
D’utilisation
La santé Les finances
33
Les Finances
Plusieurs grandes entreprises du
secteur financier utilisent aujourd'hui
des algorithmes de machine learning
et de renforcement learning. Le but est
d'arriver à améliorer à la fois leur
investissement de capitaux propres,
ainsi que leur activité de trading.
34
Exemple
En 2017, JP Morgan a ainsi
annoncé son projet
d'automatiser l'exécution des
gros ordres de trading. Cette
décision leur permettra
d'exécuter rapidement leur
transaction.
35
Conclusion
36
L’une de ces techniques d’apprentissage par
renforcement est le Q-learning.
Ce Dernier est actuellement populaire car cette stratégie
est sans modèle. Vous pouvez également soutenir votre
modèle de Q-learning avec le Deep Learning qui
comprend de nombreux réseaux de neurones artificiels
qui identifient les poids appropriés pour trouver la
meilleure solution possible.
37
Grâce à ces techniques,
les entreprises réalisent de
nombreux progrès dans la
prise de décisions et
l’exécution des tâches.
38
Merci pour votre attention
Vos questions !
39