TP1 Def-1

Ce TP vise à familiariser les étudiants avec la résolution de problèmes de planification dans un MDP, en utilisant des algorithmes d'itération sur les politiques et d'itération sur les valeurs. Il inclut également un problème de gestion de stock modélisé par un MDP et l'implémentation de l'algorithme Q-Learning pour des situations où les paramètres sont inconnus. Enfin, un exemple de robot dans un labyrinthe est présenté pour appliquer les concepts de MDP à un problème pratique.

Transféré par

yassine el ghoumari

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues4 pages

TP1 Def-1

Transféré par

yassine el ghoumari

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP 1 : Du planning au reinforcement learning

[Link]@[Link]
10 octobre 2011

L’objectif de ce TP est de vous familiariser avec la résolution d’un problème de

plannification (ou planning) dans un MDP : c’est à dire la résolution d’un MDP
(pour un certain critère) dont on connait les paramètres via les algorithmes IP et
IV vus en cours. On verra également des premiers algorithmes d’apprentissage
par renforcement qui visent à maximiser sa récompense dans un MDP où les
paramètres sont inconnus.

1 Algorithmes IP et IV pour le problème du plan-

ning
1. Une notion utile est celle de Q-valeur d’une politique pour un couple
état,action (x,a) :
X
Qπ (x, a) = r(x, a) + p(y|x, a)V π (y)
y∈X

Ecrire une formulation de l’algorithme d’itération sur les politiques avec

la notion de Q-valeur
2. On définit une politique “greedy” ou gloutonne par rapport à une fonction
valeur comme π = greedy(V ) ssi T π V = T V . Montrez que l’on peut
réécrire ainsi les algorithmes IV et IP :

VI : πk+1 = greedy(Vk ) Vk+1 = T πk+1 Vk .

πk ∞
PI : Vk = (T ) Vk−1 πk+1 = greedy(Vk ).

2 Un problème de gestion de stock

Le but de cette partie est de résoudre un problème de contrôle le stock en le
modélisant par un MDP. Un vendeur de machines à laver cherche à optimiser
son profit. Le cadre est le suivant :
– on note Xt le nombre de machines à laver qu’il détient dans son magasin à la
fin de la semaine numéro numéro t ;
– au maximum, il peut stocker M machines ; mais chaque semaine, le coût
d’entretien et de lavage de chaque machine est de h ;

1
– il peut acheter At machines au prix unitaire c : il les reçoit alors au début de
la semaine suivante ; les frais de livraison sont de K quel que soit le nombre
de machines livrées, sauf bien sûr si At = 0 ;
– il vend ses machines au prix p ; le nombre de clients au cours de la semaine t
est une variable aléatoire Dt , et on suppose que la suite (Dt )t≥1 est i.i.d.
– on note Rt son chiffre d’affaire sur la semaine t ;
– on suppose qu’au temps initial t = 1, son stock est plein : X1 = M ;
– soit γ ∈]0, 1[ tel que le taux d’inflation par semaine soit égal à γ −1 − 1 :
on suppose donc que le vendeur cherche à maximiser en espérance son profit
actualisé
hX∞ i
E γ t Rt+1
t=0

On pourra prendre pour les simulations, par exemple : M = 15, K = 0.8,

c = 0.5, h = 0.3, p = 1, et pour la distribution de Dt une loi géométrique de
paramètre 0.1.

Le dossier ’Gestion de stock’ contient une partie des fonctions utiles. Le fichier
Matlab ’Fil rouge.m’ contient le modèle ci-dessus et les différentes étapes du
TP.

Simulations de trajectoires et estimation de leur fonction

valeur
1. Montrer que

Xt+1 = (Xt + At ) ∧ M − Dt+1
+

Rt+1 = −KI(At >0) − c (Xt + At ) ∧ M − Xt − hXt + p Dt+1 ∧ (Xt + At ) ∧ M
+

2. Une politique π est représenté par un vecteur ligne de taille M + 1, où

π(1 + k) donne le nombre de machines acheté par le vendeur si le stock
est k. Écrire une fonction
[X,R] = trajectoire(n,x0,pi,D,M,K,h,c,pr)
qui simule l’évolution du stock et du profit sur n semaines selon une poli-
tique pi en partant d’un nombre initial x0 de machines.
3. Estimer l’espérance du profit discounté à l’aide d’un grand nombre de
simulations (estimation de Monte-Carlo de la fonction valeur de cette po-
litique) Comment évalue le profit par exemple quand le vendeur achète 2
machines chaque semaine ?

On pourra se servir des fonctions 0 simu.m0 qui simule une loi à support fini sur
[0, M ] et 0 N ewstate.m0 , 0 Reward.m0 .

2
Paramètres du MDP
Pour chaque (x, y, a) ∈ {0, . . . , M }3 , calculer P (Xt+1 = y|Xt = x, At = a) ainsi
que E[Rt+1 |Xt = x, At = a] et écrire une fonction
[P,R] = MDP(D,M,K,h,c,pr)
qui aux paramètres du problème associe la matrice de transition P (x, y, a) =
p(y|x, a) et la matrice de récompense immédiate R(x, a) = E[R|x, a].

Evaluation d’une politique

Quelle sont les différentes manières de calculer la fonction valeur V π d’une
politique donnée π ? Pour plusieurs de ces méthodes, écrire une fonction

[V] = pol_eval(pol,P,R,M,gamma)
qui évalue la politique pol. Quel est l’avantage de l’estimation par une méthode
de Monte-Carlo ?

Que peut espérer gagner le vendeur qui achète chaque semaine deux machines ?

Itération sur les valeurs, Itération sur les politiques

1. Programmer l’algorithme d’itération sur les valeurs pour trouver la stra-
tégie optimale pour le vendeur.
[V, pol] = IV(P,R,gamma,V0,nb_it)
2. Programmer l’algorithme d’itération sur les politiques, avec différentes
manières d’évaluer la politique πk
[V, pol] = IP(P,R,gamma,pi0,nb_it)
3. Interpréter la politique optimale obtenue.
4. Comparer le temps de calcul sur un nombre donné d’itération. Illustrer la
vitesse de la convergence en traçant ||V ∗ − Vk ||∞ en fonction de l’itération
k pour les différents algorithmes.

3 Q-Learning : un algorithme de RL
On suppose maintenant que le vendeur ne connaît pas la loi de Dt . L’algo-
rithme Q-Learning est un algorithme stochastique qui basé sur des simulations
de transitions, converge vers la table action-valeur optimale Q∗ (x, a).

Entrées
– politique πt pour le choix d’une
P action à l’instant
P 2 t
– suite αt de réels positifs tq αt = ∞ et αt < ∞
Pour t ≥ 0

3
– choisir At ∼ πt (Xt , .)
– observation d’une transition : récompense Rt , nouvel état Xt+1
– Updater (Xt , At ) dans la table action-valeur via :

Qt+1 (Xt , At ) = (1 − αt )Qt (Xt , At ) + αt (Rt + γ max Qt (Xt+1 , a))

a∈A

Implémenter la méthode de Q-learning, et vérifier sa convergence quand t tend

vers l’infini.

4 Toy example : un robot dans un labyrinthe

Soit le labyrinthe ci-dessus, où les boules vertes représentes les sorties. On consi-
dère que l’on contrôle un robot bruité se déplaçant dans ce labyrinthe, et le but
est de le faire sortir aussi vite que possible. Le robot est bruité au sens où lors-
qu’on lui demande de se déplacer, il a une probabilité 1 − p de rester sur place.

1. Modéliser ce problème par un MDP permettant de résoudre ce problème :

espace d’états, espace d’actions, probabilités de transition, modèle de ré-
compense, fonction valeur optimale (ie pour quel critère veut-on résoudre
ce MDP ?)
2. Dans le répertoire ’Toy Example’, la fonction
[P,R] = model_exact(para)
construit à partir du labyrinthe préalablement choisi la matrice P (x, y, a) =
p(y|x, a) des transitions et R(x, a) = r(x, a). Quel est le modèle de récom-
pense implémenté par défaut ? Vous pouvez le modifier selon votre modèle
de récompense.
3. Exécuter cellule par cellule le fichier Matlab ’ToyExample.m’ : on peut
visualiser la politique πk résultat de différentes itération de IP et ainsi
observer la convergence vers la politique optimale qui parait naturelle.

Vous aimerez peut-être aussi

Cour Apprentissage - Automatique
Pas encore d'évaluation
Cour Apprentissage - Automatique
33 pages
RL Rapport - IliassRazoki - OussamaChahbi
Pas encore d'évaluation
RL Rapport - IliassRazoki - OussamaChahbi
12 pages
Optimisation des feux rouges par IA
Pas encore d'évaluation
Optimisation des feux rouges par IA
35 pages
Serie 1 Prog Dynam Romarin2024 2025
Pas encore d'évaluation
Serie 1 Prog Dynam Romarin2024 2025
4 pages
11 - Deep Learning - FR
Pas encore d'évaluation
11 - Deep Learning - FR
44 pages
Modélisation D'un Agent Robuste en Apprentissage Par Renforcement
Pas encore d'évaluation
Modélisation D'un Agent Robuste en Apprentissage Par Renforcement
2 pages
TD - TP0
Pas encore d'évaluation
TD - TP0
12 pages
Programmation dynamique en économie appliquée
100% (1)
Programmation dynamique en économie appliquée
4 pages
Algorithmes pour MDPPO : Approches et Méthodes
Pas encore d'évaluation
Algorithmes pour MDPPO : Approches et Méthodes
7 pages
Introduction à la Programmation Dynamique
Pas encore d'évaluation
Introduction à la Programmation Dynamique
71 pages
Cours
Pas encore d'évaluation
Cours
101 pages
Modélisation de la programmation linéaire
Pas encore d'évaluation
Modélisation de la programmation linéaire
3 pages
Optimisation de la Production par Programmation Linéaire
Pas encore d'évaluation
Optimisation de la Production par Programmation Linéaire
3 pages
Cours d'Optimisation en Master 1
100% (2)
Cours d'Optimisation en Master 1
97 pages
Modélisation des stocks avec chaînes de Markov
Pas encore d'évaluation
Modélisation des stocks avec chaînes de Markov
3 pages
Introduction à l'apprentissage par renforcement
Pas encore d'évaluation
Introduction à l'apprentissage par renforcement
27 pages
Aide à la Décision : Recherche Opérationnelle
100% (1)
Aide à la Décision : Recherche Opérationnelle
61 pages
Optimisation Linéaire et Méthodes Associées
Pas encore d'évaluation
Optimisation Linéaire et Méthodes Associées
53 pages
M1 Informatique SIAD Module Optimisation Stochastique Chetibi Saloua
Pas encore d'évaluation
M1 Informatique SIAD Module Optimisation Stochastique Chetibi Saloua
51 pages
Introduction à l'Optimisation et PL
Pas encore d'évaluation
Introduction à l'Optimisation et PL
30 pages
TD3 - Processus - Aleatoires ROP 3
Pas encore d'évaluation
TD3 - Processus - Aleatoires ROP 3
3 pages
Exam-Rl-Answers FR
Pas encore d'évaluation
Exam-Rl-Answers FR
11 pages
Optimisation des ressources en programmation linéaire
100% (1)
Optimisation des ressources en programmation linéaire
3 pages
Programmation dynamique : sac à dos et stock
Pas encore d'évaluation
Programmation dynamique : sac à dos et stock
5 pages
Modélisation Mathématique et Études de Cas
Pas encore d'évaluation
Modélisation Mathématique et Études de Cas
11 pages
Recherche opérationnelle : Algorithmes et impacts
Pas encore d'évaluation
Recherche opérationnelle : Algorithmes et impacts
4 pages
Programmation Lineaire en Nombre Entier
Pas encore d'évaluation
Programmation Lineaire en Nombre Entier
27 pages
Méthode de Simplexe et Programmation Linéaire
Pas encore d'évaluation
Méthode de Simplexe et Programmation Linéaire
40 pages
Examen - ODDI - Corrigé Type
Pas encore d'évaluation
Examen - ODDI - Corrigé Type
5 pages
Problèmes d'optimisation et heuristiques
Pas encore d'évaluation
Problèmes d'optimisation et heuristiques
5 pages
Cours
Pas encore d'évaluation
Cours
37 pages
Corrigé Examen
Pas encore d'évaluation
Corrigé Examen
5 pages
Introduction à la programmation linéaire
Pas encore d'évaluation
Introduction à la programmation linéaire
60 pages
Programmation Linéaire Et Modèles de Distribution
Pas encore d'évaluation
Programmation Linéaire Et Modèles de Distribution
13 pages
2021upslm020 16 45
Pas encore d'évaluation
2021upslm020 16 45
30 pages
Machine Learning Mathematics
Pas encore d'évaluation
Machine Learning Mathematics
4 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
16 pages
Programmation Dynamique et Optimisation
Pas encore d'évaluation
Programmation Dynamique et Optimisation
14 pages
Introduction aux MDP et Algorithmes
Pas encore d'évaluation
Introduction aux MDP et Algorithmes
43 pages
Réseau de neurones et rétro-propagation
Pas encore d'évaluation
Réseau de neurones et rétro-propagation
2 pages
Apprentissage Supervisé : Régression expliquée
Pas encore d'évaluation
Apprentissage Supervisé : Régression expliquée
16 pages
TP Ogp
Pas encore d'évaluation
TP Ogp
15 pages
Programmation Mathématique et Optimisation
100% (1)
Programmation Mathématique et Optimisation
45 pages
Corrigé Examen RO SO (2023 24)
Pas encore d'évaluation
Corrigé Examen RO SO (2023 24)
5 pages
R Eseaux de Neurones Artificiels
Pas encore d'évaluation
R Eseaux de Neurones Artificiels
57 pages
TD1 Theorie Décision 2021 Corrigé
100% (4)
TD1 Theorie Décision 2021 Corrigé
9 pages
Prévisions économiques et méthodes décisionnelles
Pas encore d'évaluation
Prévisions économiques et méthodes décisionnelles
3 pages
Banque de Questions - APRENTISSAGE PAR RENFORCEMENT
Pas encore d'évaluation
Banque de Questions - APRENTISSAGE PAR RENFORCEMENT
2 pages
Optimisation Linéaire par Variables d'Écart
Pas encore d'évaluation
Optimisation Linéaire par Variables d'Écart
30 pages
Introduction à la Classification en ML
Pas encore d'évaluation
Introduction à la Classification en ML
3 pages
Introduction à la Programmation Linéaire
Pas encore d'évaluation
Introduction à la Programmation Linéaire
17 pages
DM2 - 14 10 2024
Pas encore d'évaluation
DM2 - 14 10 2024
110 pages
L IA Dans Les Jeux
Pas encore d'évaluation
L IA Dans Les Jeux
30 pages
Recherche Opérationnelle et Modélisation
Pas encore d'évaluation
Recherche Opérationnelle et Modélisation
70 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
44 pages
Optimisation financière : méthodes et applications
100% (1)
Optimisation financière : méthodes et applications
49 pages
Correction - Séries 1 Et 2
Pas encore d'évaluation
Correction - Séries 1 Et 2
14 pages
Chapitre 3 Apprentissage Supervisé - Classification
Pas encore d'évaluation
Chapitre 3 Apprentissage Supervisé - Classification
85 pages
Chapitre III: La Récursivité Et Le Paradigme Diviser Pour Régner
Pas encore d'évaluation
Chapitre III: La Récursivité Et Le Paradigme Diviser Pour Régner
8 pages
Méthodes de Recherche
Pas encore d'évaluation
Méthodes de Recherche
19 pages
Chap 4. Diviser Pour Régner PDF
Pas encore d'évaluation
Chap 4. Diviser Pour Régner PDF
18 pages
Méthode Du Nombre Dor
Pas encore d'évaluation
Méthode Du Nombre Dor
12 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
57 pages
TD 3 Arbres de Recherche Et AVL 2025 Corrigé
Pas encore d'évaluation
TD 3 Arbres de Recherche Et AVL 2025 Corrigé
11 pages
Exposé Algo
Pas encore d'évaluation
Exposé Algo
10 pages
SIMPLEXE
Pas encore d'évaluation
SIMPLEXE
32 pages
Exercices sur la complexité des algorithmes
Pas encore d'évaluation
Exercices sur la complexité des algorithmes
21 pages
Listes Chaînées en C : TP Université Ibn Tofail
Pas encore d'évaluation
Listes Chaînées en C : TP Université Ibn Tofail
2 pages
CO
Pas encore d'évaluation
CO
9 pages
Algorithmes de saisie et validation d'entiers
Pas encore d'évaluation
Algorithmes de saisie et validation d'entiers
2 pages
020 - Résolution Des Équations F (X) 0
Pas encore d'évaluation
020 - Résolution Des Équations F (X) 0
7 pages
Structures de données en algorithmique
Pas encore d'évaluation
Structures de données en algorithmique
3 pages
Algorithmes Récursifs : Exemples Pratiques
Pas encore d'évaluation
Algorithmes Récursifs : Exemples Pratiques
1 page
Algorithme CART et Élagage d'Arbres
Pas encore d'évaluation
Algorithme CART et Élagage d'Arbres
20 pages
Listes Chaînées en C : Atelier Programmation
Pas encore d'évaluation
Listes Chaînées en C : Atelier Programmation
5 pages
Cours sur les Techniques d'Ordonnancement
Pas encore d'évaluation
Cours sur les Techniques d'Ordonnancement
54 pages
Exercices Corrigés en Analyse Numérique
Pas encore d'évaluation
Exercices Corrigés en Analyse Numérique
19 pages
AAC - ER (M1 GL & MID) - Corrigé
Pas encore d'évaluation
AAC - ER (M1 GL & MID) - Corrigé
2 pages
Materiel JetX
100% (1)
Materiel JetX
18 pages
Arbres Binaires: Concepts et Python
Pas encore d'évaluation
Arbres Binaires: Concepts et Python
11 pages
Corrigé de La Série de TD N 03 de Structures de Données
Pas encore d'évaluation
Corrigé de La Série de TD N 03 de Structures de Données
8 pages
Correction DS Structures de Donnees
Pas encore d'évaluation
Correction DS Structures de Donnees
10 pages
Arbres binaires : concepts et applications
Pas encore d'évaluation
Arbres binaires : concepts et applications
38 pages
Les Algorithmes de Tri - Interstices - Interstices
Pas encore d'évaluation
Les Algorithmes de Tri - Interstices - Interstices
16 pages
Modèles et Algorithmes d'Ordonnancement
Pas encore d'évaluation
Modèles et Algorithmes d'Ordonnancement
42 pages
Exam1 2017-2018
Pas encore d'évaluation
Exam1 2017-2018
2 pages
Examen
Pas encore d'évaluation
Examen
4 pages