0% ont trouvé ce document utile (0 vote)
22 vues172 pages

Le Processus Decisionnel

Le document traite des processus décisionnels de Markov appliqués à la planification sous incertitude, en mettant l'accent sur la robustesse des méthodes de valorisation. Il présente des résultats expérimentaux montrant que les politiques générées par cette approche sont moins sensibles aux obstacles dans l'environnement par rapport aux politiques de chemin le plus court. Les résultats indiquent une stabilité des performances même avec des variations dans les facteurs de transition et de gain.

Transféré par

kmljarif
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues172 pages

Le Processus Decisionnel

Le document traite des processus décisionnels de Markov appliqués à la planification sous incertitude, en mettant l'accent sur la robustesse des méthodes de valorisation. Il présente des résultats expérimentaux montrant que les politiques générées par cette approche sont moins sensibles aux obstacles dans l'environnement par rapport aux politiques de chemin le plus court. Les résultats indiquent une stabilité des performances même avec des variations dans les facteurs de transition et de gain.

Transféré par

kmljarif
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Processus décisionnels de Markov appliqués à la

planification sous incertitude


Pierre Laroche

To cite this version:


Pierre Laroche. Processus décisionnels de Markov appliqués à la planification sous incertitude. Autre
[cs.OH]. Université Henri Poincaré - Nancy 1, 2000. Français. �NNT : 2000NAN10012�. �tel-01754413�

HAL Id: tel-01754413


https://hal.univ-lorraine.fr/tel-01754413
Submitted on 30 Mar 2018

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le jury de


soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci


implique une obligation de citation et de référencement lors de
l’utilisation de ce document.

D'autre part, toute contrefaçon, plagiat, reproduction illicite


encourt une poursuite pénale.

Contact : [email protected]

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4


Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm
~

~
126 Chapitre 5. Décomposition des Processus Décisionnels de Markov

5.7.3 Robustesse
TOUS avons montré plus haut que nos formules de valuation donnent globalement de
bons résultats, quelle que soit la méthode de valuation utilisée. Mais ces tests ont été fait
en utilisant une unique fonction de transition, un facteur r fixé à 0,99 et une fonction de
gain très simple. Nous avons voulu tester notre méthode en faisant varier ces facteurs,
afin de vérifier sa robustesse.

Obstacles dans l'environnement


Comme nous l'avons indiqué précédemment, les résultats présentés sur les environ-
nements des figures 5,18 et 5.19 sont des résultats moyens sur 10 instances de chaque
environnement. La première instance contient un grand nombre d'obstacles, la dernière
n'en contient aucun. Nous présentons ici le détail de ces résultats. Tout d'abord, si l'on
compare notre approche vis-à-vis d'une politique plus court chemin (figures 5.21 et 5.22),
on remarque que les politiques obtenues par notre approche sont beaucoup moins sensibles
au nombre d'obstacles que les politiques plus court chemin. Sur ces deux figures, l'envi-
ronnement numéro 1 est le plus obstrué, le numéro 10 ne contenant aucun obstacle. Les
politiques plus court chemin sont moins bonnes dans les environnements sans obstacles,
ce que nous avons déjà expliqué. Quand il y a beaucoup d'obstacles dans un couloir, il
n'y a pas beaucoup de façons différentes de le traverser: il faut éviter les obstacles, donc
la politique plus court chemin ne pourra pas s'éloigner beaucoup de la politique optimale.
En revanche, s'il n'y a pas d'obstacle, une politique stochastique va privilégier les états
au milieu du couloir (minimisant ainsi les risques de collision), ce que ne fait pas une
politique plus court chemin.

Valeur par rapport à l'optimal Pourcentage d'actions correctes

100,00% . - -.......... .-.-.. .......


-~-a-...... • 100,00%

90,00% 90,00% .-__.--a- 11·..····•···· .

80,00% 80,00%
70,00% 70,00%

60,00% 60,00%
sa,OO% sa,OO%

40,00% .j-~~~~~-~~-~~-~~ 40,00% .j-~-~~~-~_-~~-~~


10 10
Environnement Environnement

j-+- Solution plus court chemin ---- Notre approche 1 ~ Solution plus court chemin _......- Notre approche

FIG. 5.21 - Qualité sur les 10 instances de la Figure 5.18

Si les résultats obtenus avec notre méthode semblent très stables, c'est surtout dû
à un effet d'échelle. Les tables 5.5 et 5.6 présentent plus précisément les résultats sur
les 10 instances: la colonne la plus à gauche donne les résultats pour l'environnement le
plus obstrué, alors que la dixième colonne présente ceux de l'environnement vide de tout
obstacle. Les tendances obtenues sur les deux environnements au niveau de la qualité des
politiques sont un peu différentes. En effet, sur le second environnement, on perd 1,6% en
valeur, mais on gagne quasiment 3% au niveau des actions, Sur le premier environnement,

Vous aimerez peut-être aussi