0% ont trouvé ce document utile (0 vote)

286 vues39 pages

Q-Learning : Algorithme et Applications

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

286 vues39 pages

Q-Learning : Algorithme et Applications

Transféré par

Rourou Rouaa

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Q-Learning

Réalisé Par :
Ben Alaya Rabii
Ben Othmen Mokhtar
Chabbouh Oussama
Chebbi Mohamed Amine
Rourou Oussama
Ferjani Mariem
Wadaa Rihem 1
PLAN

Présentation du Projet

Processus d’apprentissage du Q-Learning

Utilisation Du Q-Learning

Conclusion
2
Présentation Du Projet

3
Introduction

L’ Algorithme Q-Learning, est une

technique d'apprentissage par
renforcement les plus utilisées

4
Qu’est-ce que le
Q-Learning ?
5
Le Q-learning est un algorithme d’apprentissage
basé sur la valeur et se concentre sur
l’optimisation de la fonction de valeur en fonction
de l’environnement ou du problème.

Le processus peut être automatique et simple. Le

modèle stocke toutes les valeurs dans un tableau
Q.

6
Il permet de comprendre rapidement le
mécanisme d'apprentissage de nombreux
modèles. Il permet également d'identifier la
meilleure action à entreprendre dans un
contexte bien précis.

7
Le Q-learning est capable d'effectuer des actions
aléatoires sans tenir compte de la politique
actuelle.

Cet algorithme cherche surtout à apprendre une

politique qui maximise la récompense totale.

Le Q-learning met en évidence l'utilité de l'action

à accomplir pour obtenir une récompense.

8
Processus
d’apprentissage du
Q-Learning

9
L’exemple de jeu suivant
vous aidera à
comprendre le concept
de Q-learning

10
01

Initialisation

11
Votre agent, lorsqu’il jouera pour la première
fois au jeu, n’aura aucune connaissance.
Nous supposerons donc que la table Q est
égale à zéro.

12
1

01 02
Exploration
Initialisation Ou
Exploitation

13
Travaille pour un nombre Il n’a
plus élevé pendant un aucune expérience
certain temps

Exploite Explore

Il recueillera des informations Il essaiera de trouver de

à partir de la table des nouveaux moyens
questions
14
Vous pouvez gérer les ajustements entre deux
conditions, l’exploration et l’exploitation, en ajoutant
un epsilon.
Incluez l’epsilon dans la fonction de valeur. Lorsque
nous commençons avec le modèle et que nous
n’incluons aucune information, vous devez préférer
l’exploration.
Cependant, une fois que votre modèle commence à
s’adapter à l’environnement, vous devez suivre
l’exploitation. En termes simples, l’agent prendra des
mesures à l’étape deux, et les choix sont l’exploration
et l’exploitation.
15
01 02 03
Exploration Mesurer la
Initialisation Ou récompense
Exploitation

16
Lorsque l’agent décide de l’action à choisir, il
agit. Cela conduit l’agent à l’étape suivante,
qui est l’état “S”.
Dans cet état, l’agent effectue quatre actions.
Chacune de ces actions dirigera l’agent vers
différents scores de récompense.

17
si l’agent choisit l’état 5 à partir de l’état 1,
il ira plus loin en fonction de l’expérience de
cet état.
L’agent peut alors choisir de passer à l’état 6
ou à l’état 9 en fonction de l’expérience
antérieure et de l’éventuelle attente de
récompense.

18
01 02 03 04
Exploration Mesurer la Mise à jour
Initialisation
Ou récompense du tableau Q
Exploitation

19
L’agent calculera la valeur de la récompense.
L’algorithme utilisera l’équation de Bellman
pour mettre à jour la valeur à l’État “S”.

Q*(s,a) = E [R t + 1 + γmaxa′q∗(s′,a′)

20
Voici
quelques
terminologies
Taux Taux
d’apprentissage d’actualisation

Est la constante. Il permet

Une constante qui
d’escompter ce que sera la
détermine le poids que
future récompense. En termes
vous devez ajouter dans la
simples, le taux d’actualisation
table des questions pour
aide à équilibrer l’effet des
générer une nouvelle
récompenses à venir sur les
valeur au lieu de l’ancienne.
nouvelles valeurs.21
Une fois que l’agent a franchi
toutes ces étapes en apprenant il obtiendra des valeurs actualisées
sur la table Q.
de manière significative :

Maintenant, il est simple d’utiliser la

table Q pour cartographier les états.

Chaque agent d’état sélectionnera

une action qui le mènera à l’état
ayant la valeur Q la plus élevée..

22
Exemple réel du
Q-function

23
Action :

1 2 3

4 5 6

Q-Function

7 8 9
2
Q(st, a t) = E[R + yR + y R + …|s , a ]
t+1 t+2 t+3 t t

24
Utilisation du Q learning

25
De nombreuses start-ups innovantes se servent
aujourd'hui de l'apprentissage par renforcement
pour optimiser l'utilisation des équipements et des
machines.

Grâce à son fort potentiel, le Q-learning peut être

utilisé dans de nombreux domaines.

26
La fouille de
texte

Domaines
D’utilisation

27
Text Mining

Ils constituent également un domaine

d'application du reinforcement learning. Pour
développer un système capable de produire
des résumés de longs textes, les chercheurs
d'une entreprise spécialisée dans le cloud
computing ont trouvé une solution :

combiner à la fois le renforcement learning et

un modèle avancé de génération de texte
contextuel. À partir de données exploitées,
l'agent IA peut produire de façon autonome de
petits textes cohérents.

28
La fouille de La robotique
texte

Domaines
D’utilisation

29
La Robotique

En automatisation industrielle et en
robotique, le Q Learning permet à la
machine de créer un système de
contrôle adaptatif. L'action de l'agent
IA permet à la machine d'apprendre de
son propre comportement et de son
expérience.

30
La fouille de La robotique
texte

Domaines
D’utilisation

La santé

31
La santé

Le domaine de la santé emploie des

applications de renforcement learning.
Q learning est utilisé pour les essais :

Dosage de
Cliniques médicaments

Optimisation de la
politique
de traitement des
maladies 32
La fouille de La robotique
texte

Domaines
D’utilisation

La santé Les finances

33
Les Finances

Plusieurs grandes entreprises du

secteur financier utilisent aujourd'hui
des algorithmes de machine learning
et de renforcement learning. Le but est
d'arriver à améliorer à la fois leur
investissement de capitaux propres,
ainsi que leur activité de trading.

34
Exemple

 En 2017, JP Morgan a ainsi

annoncé son projet
d'automatiser l'exécution des
gros ordres de trading. Cette
décision leur permettra
d'exécuter rapidement leur
transaction.

35
Conclusion

36
 L’une de ces techniques d’apprentissage par
renforcement est le Q-learning.

Ce Dernier est actuellement populaire car cette stratégie

est sans modèle. Vous pouvez également soutenir votre
modèle de Q-learning avec le Deep Learning qui
comprend de nombreux réseaux de neurones artificiels
qui identifient les poids appropriés pour trouver la
meilleure solution possible.

37
Grâce à ces techniques,
les entreprises réalisent de
nombreux progrès dans la
prise de décisions et
l’exécution des tâches.

38
Merci pour votre attention

Vos questions !
39

Vous aimerez peut-être aussi

Optimisation non linéaire : Théorie et méthodes
Pas encore d'évaluation
Optimisation non linéaire : Théorie et méthodes
52 pages
Introduction à Octave pour Mathématiques
Pas encore d'évaluation
Introduction à Octave pour Mathématiques
5 pages
Statbayesiennes v4
Pas encore d'évaluation
Statbayesiennes v4
29 pages
Théorie des Graphes : Concepts et Applications
Pas encore d'évaluation
Théorie des Graphes : Concepts et Applications
18 pages
Analyse Statistique Descriptive
Pas encore d'évaluation
Analyse Statistique Descriptive
13 pages
(Resolution Graphique-Pl) PDF
Pas encore d'évaluation
(Resolution Graphique-Pl) PDF
9 pages
Calcul de la courbure en géométrie
Pas encore d'évaluation
Calcul de la courbure en géométrie
106 pages
TP Dichotomie Python
Pas encore d'évaluation
TP Dichotomie Python
2 pages
Applications Linéaires en MPSI
Pas encore d'évaluation
Applications Linéaires en MPSI
14 pages
2024-2025 TD Analyse 1
Pas encore d'évaluation
2024-2025 TD Analyse 1
4 pages
Correction TD°1 Échantillonnage
Pas encore d'évaluation
Correction TD°1 Échantillonnage
5 pages
Cours Sidi Mohamed Douiri Pour Master Crypto
Pas encore d'évaluation
Cours Sidi Mohamed Douiri Pour Master Crypto
30 pages
AS Maths
Pas encore d'évaluation
AS Maths
13 pages
Exercices de révision IAQT
100% (1)
Exercices de révision IAQT
8 pages
Support de Cours M1 OFRC
Pas encore d'évaluation
Support de Cours M1 OFRC
40 pages
Introduction à l'Algorithme de Simplexe
Pas encore d'évaluation
Introduction à l'Algorithme de Simplexe
38 pages
Méthodes de prévision des ventes CA
Pas encore d'évaluation
Méthodes de prévision des ventes CA
3 pages
TD Statistiques Corr
Pas encore d'évaluation
TD Statistiques Corr
5 pages
Ensa Ro Chap1
Pas encore d'évaluation
Ensa Ro Chap1
37 pages
Introduction aux SVM et Classification Binaire
Pas encore d'évaluation
Introduction aux SVM et Classification Binaire
50 pages
Programme L1 MI
Pas encore d'évaluation
Programme L1 MI
22 pages
Tests Statistiques en Psychologie
Pas encore d'évaluation
Tests Statistiques en Psychologie
2 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Lasso
Pas encore d'évaluation
Lasso
27 pages
Introduction À La Statistique
Pas encore d'évaluation
Introduction À La Statistique
20 pages
Beamer Stat1 Article Draft 20180918 PDF
Pas encore d'évaluation
Beamer Stat1 Article Draft 20180918 PDF
45 pages
Estimations et intervalles de confiance
Pas encore d'évaluation
Estimations et intervalles de confiance
3 pages
Exercices sur les Matrices Inverses
Pas encore d'évaluation
Exercices sur les Matrices Inverses
6 pages
Chap1 MASS S4 2020 21
Pas encore d'évaluation
Chap1 MASS S4 2020 21
21 pages
Cours Matlab et Calcul Numérique ENSA Safi
Pas encore d'évaluation
Cours Matlab et Calcul Numérique ENSA Safi
72 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
90 pages
Regression
Pas encore d'évaluation
Regression
147 pages
SB ch1
Pas encore d'évaluation
SB ch1
44 pages
Avantages et Types de l'Héritage
Pas encore d'évaluation
Avantages et Types de l'Héritage
22 pages
Décison Dans L'incertain 4
Pas encore d'évaluation
Décison Dans L'incertain 4
78 pages
5.6 Exercices Supplémentaires
Pas encore d'évaluation
5.6 Exercices Supplémentaires
10 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
87 pages
Série 3 Probabilités Et Statistiques
Pas encore d'évaluation
Série 3 Probabilités Et Statistiques
7 pages
(TD11) Optimisation Combinatoire
Pas encore d'évaluation
(TD11) Optimisation Combinatoire
39 pages
Techniques de Probabilité et Hypothèses
Pas encore d'évaluation
Techniques de Probabilité et Hypothèses
29 pages
Simulation Des
100% (1)
Simulation Des
45 pages
TD 4 Fonctions Et Listes
Pas encore d'évaluation
TD 4 Fonctions Et Listes
4 pages
Dérivée Directionnelle
100% (1)
Dérivée Directionnelle
8 pages
TP Optimisation 4DS
Pas encore d'évaluation
TP Optimisation 4DS
3 pages
Tests de Racine Unitaire Séries Temporelles
Pas encore d'évaluation
Tests de Racine Unitaire Séries Temporelles
57 pages
Examen de Statistique Descriptive Sem2 2014-2015
Pas encore d'évaluation
Examen de Statistique Descriptive Sem2 2014-2015
4 pages
Ajustement affine en statistiques
Pas encore d'évaluation
Ajustement affine en statistiques
24 pages
Estimation de La Densité
Pas encore d'évaluation
Estimation de La Densité
45 pages
TD2: Analyse Bivariée: Exercice 1: Corrélation
Pas encore d'évaluation
TD2: Analyse Bivariée: Exercice 1: Corrélation
2 pages
Introduction à l'optimisation convexe
Pas encore d'évaluation
Introduction à l'optimisation convexe
44 pages
Optimisation pour l'Apprentissage
Pas encore d'évaluation
Optimisation pour l'Apprentissage
64 pages
Groupes Anneaux Corps
Pas encore d'évaluation
Groupes Anneaux Corps
14 pages
Partie Convexité PDF
Pas encore d'évaluation
Partie Convexité PDF
38 pages
Méthodes de Décomposition en Optimisation
Pas encore d'évaluation
Méthodes de Décomposition en Optimisation
48 pages
QLearning
Pas encore d'évaluation
QLearning
34 pages
11 - Deep Learning - FR
Pas encore d'évaluation
11 - Deep Learning - FR
44 pages
13 Transfert
Pas encore d'évaluation
13 Transfert
3 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
21 pages
Chapitre 1 Le Paysage de L'apprentissage Automatique
Pas encore d'évaluation
Chapitre 1 Le Paysage de L'apprentissage Automatique
6 pages
Introduction à l'apprentissage automatique
Pas encore d'évaluation
Introduction à l'apprentissage automatique
6 pages
IA et 5G : Optimisation des Réseaux Mobiles
Pas encore d'évaluation
IA et 5G : Optimisation des Réseaux Mobiles
3 pages
IA & ML - Chap5 - RN
Pas encore d'évaluation
IA & ML - Chap5 - RN
21 pages
Guide Rsca 2021
Pas encore d'évaluation
Guide Rsca 2021
12 pages
Devenir Millionnaire Avec CHATGPT
Pas encore d'évaluation
Devenir Millionnaire Avec CHATGPT
10 pages
Introduction Au Data Mining
Pas encore d'évaluation
Introduction Au Data Mining
102 pages
Introduction au Machine Learning et MLP
Pas encore d'évaluation
Introduction au Machine Learning et MLP
22 pages
Expert en Business Intelligence
Pas encore d'évaluation
Expert en Business Intelligence
4 pages
Sujets PFE Innovants 2017-2018
Pas encore d'évaluation
Sujets PFE Innovants 2017-2018
8 pages
Leçon 1.5 - Les Trois Piliers de La Révolution IA - MD
Pas encore d'évaluation
Leçon 1.5 - Les Trois Piliers de La Révolution IA - MD
5 pages
Quand L Intelligence Artificielle Assiste Le Diagnostic Et Rationalise L Analyse Du Holter ECG
Pas encore d'évaluation
Quand L Intelligence Artificielle Assiste Le Diagnostic Et Rationalise L Analyse Du Holter ECG
16 pages
Chap5 - Le Transfer Learning
Pas encore d'évaluation
Chap5 - Le Transfer Learning
16 pages
Certification GA4
Pas encore d'évaluation
Certification GA4
39 pages
Introduction au Deep Learning
Pas encore d'évaluation
Introduction au Deep Learning
121 pages
Interprétation des Ratios Financiers
Pas encore d'évaluation
Interprétation des Ratios Financiers
9 pages
030489-Plan de Cours
Pas encore d'évaluation
030489-Plan de Cours
20 pages
Lecture1 Intelligence Artificielle
Pas encore d'évaluation
Lecture1 Intelligence Artificielle
38 pages
Cours RDF
Pas encore d'évaluation
Cours RDF
8 pages
Algorithme Random Forest
Pas encore d'évaluation
Algorithme Random Forest
32 pages
Cours IA et Certification HCIA Huawei
100% (2)
Cours IA et Certification HCIA Huawei
49 pages
Structure Union-Find en C et Python
Pas encore d'évaluation
Structure Union-Find en C et Python
117 pages
DATA Mining 2 2 2024
Pas encore d'évaluation
DATA Mining 2 2 2024
16 pages
Applied Data Science and Artificial Intelligence
Pas encore d'évaluation
Applied Data Science and Artificial Intelligence
10 pages
Présentation Conférence Amina Mili Manel-Corr
Pas encore d'évaluation
Présentation Conférence Amina Mili Manel-Corr
27 pages
Les Impacts Juridiques Et Règlementaires de L'intelligence Artificielle en Matière Bancaire, Financière Et Des Assurances
Pas encore d'évaluation
Les Impacts Juridiques Et Règlementaires de L'intelligence Artificielle en Matière Bancaire, Financière Et Des Assurances
93 pages
Quelle Utilisation de L'intelligence Artificielle en Analyse Financière ?
Pas encore d'évaluation
Quelle Utilisation de L'intelligence Artificielle en Analyse Financière ?
23 pages
Le Machine Learning en Finance
Pas encore d'évaluation
Le Machine Learning en Finance
48 pages
IA et Droit d'Auteur : Un Défi Juridique
Pas encore d'évaluation
IA et Droit d'Auteur : Un Défi Juridique
11 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Anna Andresen
Pas encore d'évaluation
Anna Andresen
45 pages
Optimisation des stocks de médicaments
Pas encore d'évaluation
Optimisation des stocks de médicaments
30 pages