0% ont trouvé ce document utile (0 vote)
286 vues39 pages

Q-Learning : Algorithme et Applications

Transféré par

Rourou Rouaa
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
286 vues39 pages

Q-Learning : Algorithme et Applications

Transféré par

Rourou Rouaa
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Q-Learning

Réalisé Par :
Ben Alaya Rabii
Ben Othmen Mokhtar
Chabbouh Oussama
Chebbi Mohamed Amine
Rourou Oussama
Ferjani Mariem
Wadaa Rihem 1
PLAN

Présentation du Projet

Processus d’apprentissage du Q-Learning

Utilisation Du Q-Learning

Conclusion
2
Présentation Du Projet

3
Introduction

L’ Algorithme Q-Learning, est une


technique d'apprentissage par
renforcement les plus utilisées

4
Qu’est-ce que le
Q-Learning ?
5
Le Q-learning est un algorithme d’apprentissage
basé sur la valeur et se concentre sur
l’optimisation de la fonction de valeur en fonction
de l’environnement ou du problème.

Le processus peut être automatique et simple. Le


modèle stocke toutes les valeurs dans un tableau
Q.

6
Il permet de comprendre rapidement le
mécanisme d'apprentissage de nombreux
modèles. Il permet également d'identifier la
meilleure action à entreprendre dans un
contexte bien précis.

7
Le Q-learning est capable d'effectuer des actions
aléatoires sans tenir compte de la politique
actuelle.

Cet algorithme cherche surtout à apprendre une


politique qui maximise la récompense totale.

Le Q-learning met en évidence l'utilité de l'action


à accomplir pour obtenir une récompense.

8
Processus
d’apprentissage du
Q-Learning

9
L’exemple de jeu suivant
vous aidera à
comprendre le concept
de Q-learning

10
01

Initialisation

11
Votre agent, lorsqu’il jouera pour la première
fois au jeu, n’aura aucune connaissance.
Nous supposerons donc que la table Q est
égale à zéro.

12
1

01 02
Exploration
Initialisation Ou
Exploitation

13
Travaille pour un nombre Il n’a
plus élevé pendant un aucune expérience
certain temps

Exploite Explore

Il recueillera des informations Il essaiera de trouver de


à partir de la table des nouveaux moyens
questions
14
Vous pouvez gérer les ajustements entre deux
conditions, l’exploration et l’exploitation, en ajoutant
un epsilon.
Incluez l’epsilon dans la fonction de valeur. Lorsque
nous commençons avec le modèle et que nous
n’incluons aucune information, vous devez préférer
l’exploration.
Cependant, une fois que votre modèle commence à
s’adapter à l’environnement, vous devez suivre
l’exploitation. En termes simples, l’agent prendra des
mesures à l’étape deux, et les choix sont l’exploration
et l’exploitation.
15
01 02 03
Exploration Mesurer la
Initialisation Ou récompense
Exploitation

16
Lorsque l’agent décide de l’action à choisir, il
agit. Cela conduit l’agent à l’étape suivante,
qui est l’état “S”.
Dans cet état, l’agent effectue quatre actions.
Chacune de ces actions dirigera l’agent vers
différents scores de récompense.

17
si l’agent choisit l’état 5 à partir de l’état 1,
il ira plus loin en fonction de l’expérience de
cet état.
L’agent peut alors choisir de passer à l’état 6
ou à l’état 9 en fonction de l’expérience
antérieure et de l’éventuelle attente de
récompense.

18
01 02 03 04
Exploration Mesurer la Mise à jour
Initialisation
Ou récompense du tableau Q
Exploitation

19
L’agent calculera la valeur de la récompense.
L’algorithme utilisera l’équation de Bellman
pour mettre à jour la valeur à l’État “S”.

Q*(s,a) = E [R t + 1 + γmaxa′q∗(s′,a′)

20
Voici
quelques
terminologies
Taux Taux
d’apprentissage d’actualisation

Est la constante. Il permet


Une constante qui
d’escompter ce que sera la
détermine le poids que
future récompense. En termes
vous devez ajouter dans la
simples, le taux d’actualisation
table des questions pour
aide à équilibrer l’effet des
générer une nouvelle
récompenses à venir sur les
valeur au lieu de l’ancienne.
nouvelles valeurs.21
Une fois que l’agent a franchi
toutes ces étapes en apprenant il obtiendra des valeurs actualisées
sur la table Q.
de manière significative :

Maintenant, il est simple d’utiliser la


table Q pour cartographier les états.

Chaque agent d’état sélectionnera


une action qui le mènera à l’état
ayant la valeur Q la plus élevée..

22
Exemple réel du
Q-function

23
Action :

1 2 3

4 5 6

Q-Function

7 8 9
2
Q(st, a t) = E[R + yR + y R + …|s , a ]
t+1 t+2 t+3 t t

24
Utilisation du Q learning

25
De nombreuses start-ups innovantes se servent
aujourd'hui de l'apprentissage par renforcement
pour optimiser l'utilisation des équipements et des
machines.

Grâce à son fort potentiel, le Q-learning peut être


utilisé dans de nombreux domaines.

26
La fouille de
texte

Domaines
D’utilisation

27
Text Mining

Ils constituent également un domaine


d'application du reinforcement learning. Pour
développer un système capable de produire
des résumés de longs textes, les chercheurs
d'une entreprise spécialisée dans le cloud
computing ont trouvé une solution :

combiner à la fois le renforcement learning et


un modèle avancé de génération de texte
contextuel. À partir de données exploitées,
l'agent IA peut produire de façon autonome de
petits textes cohérents.

28
La fouille de La robotique
texte

Domaines
D’utilisation

29
La Robotique

En automatisation industrielle et en
robotique, le Q Learning permet à la
machine de créer un système de
contrôle adaptatif. L'action de l'agent
IA permet à la machine d'apprendre de
son propre comportement et de son
expérience.

30
La fouille de La robotique
texte

Domaines
D’utilisation

La santé

31
La santé

Le domaine de la santé emploie des


applications de renforcement learning.
Q learning est utilisé pour les essais :

Dosage de
Cliniques médicaments

Optimisation de la
politique
de traitement des
maladies 32
La fouille de La robotique
texte

Domaines
D’utilisation

La santé Les finances

33
Les Finances

Plusieurs grandes entreprises du


secteur financier utilisent aujourd'hui
des algorithmes de machine learning
et de renforcement learning. Le but est
d'arriver à améliorer à la fois leur
investissement de capitaux propres,
ainsi que leur activité de trading.

34
Exemple

 En 2017, JP Morgan a ainsi


annoncé son projet
d'automatiser l'exécution des
gros ordres de trading. Cette
décision leur permettra
d'exécuter rapidement leur
transaction.

35
Conclusion

36
 L’une de ces techniques d’apprentissage par
renforcement est le Q-learning.

Ce Dernier est actuellement populaire car cette stratégie


est sans modèle. Vous pouvez également soutenir votre
modèle de Q-learning avec le Deep Learning qui
comprend de nombreux réseaux de neurones artificiels
qui identifient les poids appropriés pour trouver la
meilleure solution possible.

37
Grâce à ces techniques,
les entreprises réalisent de
nombreux progrès dans la
prise de décisions et
l’exécution des tâches.

38
Merci pour votre attention

Vos questions !
39

Vous aimerez peut-être aussi