0% encontró este documento útil (0 votos)

73 vistas81 páginas

Modelos Gráficos Probabilistas

Este documento describe los procesos de decisión de Markov (MDP), incluyendo técnicas de solución como la iteración de valor y de política. También cubre extensiones como los procesos de decisión de Markov parcialmente observables (POMDP) y aplicaciones de estos modelos.

Cargado por

CHRISTIAM ANTONY FLORES ZAMBRANO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

73 vistas81 páginas

Modelos Gráficos Probabilistas

Cargado por

CHRISTIAM ANTONY FLORES ZAMBRANO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Modelos Gráficos Probabilistas

L. Enrique Sucar
INAOE

Sesión 15: Procesos de Decisión

de Markov
Procesos de Decisión de Markov
• Procesos de Decisión Secuenciales
• Procesos de Decisión de Markov (MDPs)
• Técnicas de Solución:
• Iteración de Valor
• Iteración de Política
• MDPs Parcialmente Observables (POMDPs)
• Extensiones
• MDPs factorizados
• Abstracción, descomposición
• Aplicaciones
© L.E. Sucar: MGP - MDPs 2
Problemas de decisión secuenciales
• Problema de decisión que involucra un conjunto
de decisiones cuyo resultado (utilidad) se conoce
hasta el final
• Se considera que se tiene una serie de estados y
decisiones asociadas en el tiempo
• Se tiene incertidumbre asociada con los
resultados de las acciones (MDP), y posiblemente
también con los estados (POMDP)

© L.E. Sucar: MGP - MDPs 3

Ejemplo – robot móvil

Inicio
© L.E. Sucar: MGP - MDPs 4
Modelo de Transición
• Normalmente existe incertidumbre respecto
a los resultados de una decisión (acción)
• Esta incertidumbre se modela como una
probabilidad de llegar al estado “j” dado
que se encuentra en el estado “i” y se
realizá la acción “a”:
Pija
© L.E. Sucar: MGP - MDPs 5
Modelo de Transición
• Probabilidad dirección deseada – Pij=0.8
• Probabilidad 2 direcciones vecinas – Pik=0.1

© L.E. Sucar: MGP - MDPs 6

Modelo de los Sensores
• Normalmente el agente puede sensar el
ambiente para observar en que estado se
encuentra.
• Existen dos casos principales:
– Observa directamente el estado donde se
encuentra- proceso de decisión de Markov
– Se tiene incertidumbre sobre el estado en que
se encuentra- proceso de decisión de Markov
parcialmente observable
© L.E. Sucar: MGP - MDPs 7
MDP

© L.E. Sucar: MGP - MDPs 8

POMDP

© L.E. Sucar: MGP - MDPs 9

Política Óptima
• Dado el modelo de transición y el modelo
de los sensores, el objetivo es encontrar la
política óptima para maximizar la utilidad
esperada
• Una política indica la acción que se debe
ejecutar dado el estado (o probabilidad del
estado)
• Se considera que las probabilidades de
transición sólo dependen del estado actual
por lo que son procesos markovianos
© L.E. Sucar: MGP - MDPs 10
Ejemplo de Política

Inicio
© L.E. Sucar: MGP - MDPs 11
Controlador basado en un MDP
Modelo
solución MDP

política

Controlador

acción estado

Sistema Eventos

© L.E. Sucar: MGP - MDPs 12

Procesos de Decisión de Markov
• Problema de obtener la política óptima en un
ambiente observable – MDP
• El método clásico para resolver estos problemas
se conoce como “iteración de valor” (value
iteration)
• La idea básica es calcular la utilidad de cada
posible estado y usar éstas para seleccionar la
acción óptima en cada estado
• Otros métodos de solución son “iteración de
política” (policy iteration) y programación lineal
(al transformar el problema a un problema de
optimización lineal)
© L.E. Sucar: MGP - MDPs 13
Procesos de Decisión de Markov
• Formalmente, un MDP (discreto) se define
por:
– Un conjunto finito de estados, S
– Un conjunto finito de posibles acciones, A
– Un modelo de transición, que especifica la
probabilidad de pasar a un estado dado el
estado presente y la acción, P(s | s’, a)
– Una función de recompensa, que especifica el
“valor” de ejecutar cierta acción a en el estado
s, r(s, a)
© L.E. Sucar: MGP - MDPs 14
Utilidad
• La utilidad de un estado depende de la secuencia
de acciones tomadas a partir de dicho estado (i)
de acuerdo a la política establecida (p)
• En principio, se puede obtener como la utilidad
esperada de todas las posibles secuencias de
acciones (Hi) y la utilidad resultante para c/u:
U(i) = UE( Hi(p) ) = Σ P(Hi(p)) Uh Hi(p)

© L.E. Sucar: MGP - MDPs 15

Utilidad
• Si la utilidad es separable, se puede estimar
como la utilidad del estado presente y la
utilidad de los siguiente estados
• La forma más sencilla es que sea una
función aditiva:
U[s0, s1, ... sn] = R(s0) + U[s1, ... sn]
• Donde R se conoce como la función de
recompensa
© L.E. Sucar: MGP - MDPs 16
Programación Dinámica
• Dada la condición de separabilidad, la utilidad de
un estado se puede obtener en forma iterativa
maximizando la utilidad del siguiente estado:
U(i) = R(i) + maxa Σj P(sj | si,a) U(j)
• La política óptima esta dada por la acción que de
mayor utilidad:
P*(i) = arg maxa Σj P(sj | si,a) U(j)

© L.E. Sucar: MGP - MDPs 17

Horizonte finito vs. infinito
• Los problemas con un número finito de
pasos se conocen como MDP de horizonte
finito
• Los problemas en que puede haber un
número infinito de pasos se conocen como
MDP de horizonte infinito
• Muchos problemas, como el ejemplo del
robot, son de horizonte infinito

© L.E. Sucar: MGP - MDPs 18

Solución
• Los métodos principales para resolver
MDPs son:
– Iteración de valor (Bellman, 57),
– Iteración de política (Howards, 60),
– Programación lineal (Puterman, 94).

© L.E. Sucar: MGP - MDPs 19

MDPs – ecuaciones fundamentales

• Función de valor (ecuación de Bellman):

V*(s) = maxa { R(s,a) + γ Σs’ P(s’ | s, a) V*(s’) }
• Política:
π*(s) = arg maxa { R(s,a) + γ Σs’ P(s’ | s, a) V*(s’) }

Donde γ es un factor de descuento

© L.E. Sucar: MGP - MDPs 20
Solución
Función de valor
• Una política para un MDP es una asociación π:S
→A (acción por estado).
• Dada la política, el valor para horizonte finito es:
Vnπ: S → ℜ
Vnπ(i) = R(i, π(i)) + Σ P(π(i) | i,j) Vn-1(j)
• Para horizonte infinito, generalmente se considera
un factor de descuento, 0<=γ<1:
Vπ(i) = R(i, π(i)) + γΣ P(π(i) | i,j) V(j)

© L.E. Sucar: MGP - MDPs 21

Solución
Política óptima
• La solución a un MDP da una política óptima.
• Esto es, la política que maximiza la ecuación de
Bellman:
π*(i) = max [R(i, a) + γΣ P(a | i,j) V*(j)]

© L.E. Sucar: MGP - MDPs 22

Iteración de Valor
• En el caso de horizonte infinito, se puede obtener
la utilidad de los estados –y la política óptima,
mediante un método iterativo
• En cada iteración (t+1), se estima la utilidad de
cada estado basada en los valores de la iteración
anterior (t):
Ut+1(i) = R(i) + maxa Σj P(sj | si,a) Ut(j)
• Cuando tinf, los valores de utilidad convergen
a un valor estable
© L.E. Sucar: MGP - MDPs 23
Iteración de Valor
Algoritmo:

– Inicializar: Ut = Ut+1 = R
– Repetir:
• Ut=Ut+1
• Ut+1(i) = R(i) + maxa Σj P(sj | si,a) Ut(j)
– Hasta: | Ut-Ut+1 | < ε

© L.E. Sucar: MGP - MDPs 24

Iteración de Valor
• ¿Cuántas veces repetir la iteración?

• Normalmente el número de iteraciones para

obtener la política óptima es menor que el
requerido para que las utilidades converjan

• En la práctica, el número de iteraciones es

relativamente pequeño
© L.E. Sucar: MGP - MDPs 25
Ejemplo – utilidades de los estados

0.812 0.868 0.912

0.762 0.660

0.705 0.655 0.611 0.338

© L.E. Sucar: MGP - MDPs 26

Ejemplo – política óptima

© L.E. Sucar: MGP - MDPs 27

Iteración de Política
• Empezando de cierta política (aleatoria),
esta se mejora encontrando una acción
por estado que tenga un mejor valor que
la acción actual
• Se puede usar conocimiento del problema
para definir la política inicial
• El proceso termina cuando ya no puede
haber mejoras
• Normalmente converge en menor número
de iteraciones que iteración de valor, pero
cada iteración es más costosa
© L.E. Sucar: MGP - MDPs 28
Iteración de Política
• Escoger una política inicial
• Repetir hasta convergencia:
– Obtener el valor para todos los estados, Vπ,
basado en la política actual π
– Para cada acción, a, calcular:
Qa = R+ γ PaVπ
– Redefinir: π(s) = argmaxa Qa(s)

© L.E. Sucar: MGP - MDPs 29

Ejemplo: robot virtual

© L.E. Sucar: MGP - MDPs 30

Una configuración

© L.E. Sucar: MGP - MDPs 31

Política óptima

© L.E. Sucar: MGP - MDPs 32

Otra configuración

© L.E. Sucar: MGP - MDPs 33

Función de valor

© L.E. Sucar: MGP - MDPs 34

POMDP
• En muchos problemas reales, no se puede
observar exactamente el estado del agente,
por lo que se tiene un POMDP
• Además de los elementos de un MDP, un
POMDP incluye:
– Una función de observación que especifica la
probabilidad de las observaciones dado el
estado, P(O|S)
– Una distribución de probabilidad inicial para
los estados, P(S)
© L.E. Sucar: MGP - MDPs 35
POMDP
• El enfoque exacto para resolver un POMDP
requiere considerar toda la historia de
observaciones y acciones
• Esto es equivalente a considerar la distribución de
probabilidad sobre los estados y en base a esta
determinar las decisiones óptimas
• Para ello, se puede considerar un POMDP como un
MDP en que los estados corresponden a la
distribución de probabilidad
• El problema es que el espacio de estados se vuelve
infinito y la solución exacta es muy compleja
© L.E. Sucar: MGP - MDPs 36
POMDP
• Soluciones aproximadas:
– Representar un POMDP de horizonte finito a través de
un “policy tree” (acciones | observaciones | acciones
…), resolviendolo en forma recursiva a través de
planes condicionales
– Para POMDP de horizonte finito la función de valor es
convexa y lineal a pedazos (vectores α). Se puede
aproximar mediante un subconjunto de vectores que
dominan a los demás, y mediante esto encontrar una
política aprox. óptima.

© L.E. Sucar: MGP - MDPs 37

POMDP
• Soluciones aproximadas:
– Considerar un número finito de pasos y
modelar el problema como una red de decisión
dinámica – la aproximación depende del
número de estados que se “ven” hacia delante
(lookahead)

© L.E. Sucar: MGP - MDPs 38

Ejemplo POMDP
• El robot detecta su posición con sonares
• Hay errores y ruido en las lecturas, alcance limitado
• Ciertas celdas son muy parecidas (1,2 – 3,2)

© L.E. Sucar: MGP - MDPs 39

MDP como una RDD
rt rt+1 rt+2

at-1 at at+1 at+2

St St+1 St+2 St+3

© L.E. Sucar: MGP - MDPs 40

POMDP como una RDD
rt rt+1 rt+2

at-1 at at+1 at+2

St St+1 St+2 St+3

O O O O
© L.E. Sucar: MGP - MDPs 41
Extensiones
El principal problema de los MDPs es el
crecimiento de la complejidad al aumentar el
número de estados y acciones (el tamaño del
problema crece exponencialmente con el número
de variables de estado y acciones). Para ello se han
planteado:

• Representaciones factorizadas
• Representaciones abstractas (agregación de estados)
• Modelos jerárquicos (serie / paralelo)

© L.E. Sucar: MGP - MDPs 42

MDPs factorizados
• El estado de descompone en un conjunto de variables
o factores
• Esto permite utilizar representaciones basadas en
modelos gráficos para reducir la complejidad del
modelo de transición y de recompensa:
– El modelo de transición se representa usando RBD (una
RBD de 2 etapas por acción)
– La función de recompensa se representa usando árboles de
decisión (considerando sólo las variables relevantes)

© L.E. Sucar: MGP - MDPs 43

MDP factorizado
X X’
X = {x1, x2, x3, x4, x5}
x1 x1’

x2 x2’
Se tiene una RBD por acción
x3 x3’

x4 x4’

x5 x5’

t t+1
© L.E. Sucar: MGP - MDPs 44
MDP - factorizado
x2
La función de recompensa
considera sólo las variables R

que inciden directamente x3

x3 x3

x2 x2

V1 V2 V3 V4 V5 V6
© L.E. Sucar: MGP - MDPs 45
Diagramas de Decisión Algebraicos
–Otra alternativa para representar en forma compacta
M y R es mediante Diagramas de Decisión Algebraicos
(SPUDD)

© L.E. Sucar: MGP - MDPs 46

SPUDD
• SPUDD [Hoey et al., 1999] es un sistema
que utiliza ADDs para resolver
eficientemente MDPs muy grandes
• Utiliza algoritmos muy eficientes para
hacer operaciones con ADDS
(desarrollados en el área de diseño y
verificación de circuitos electrónicos)

© L.E. Sucar: MGP - MDPs 47

MDPs abstractos
• Otra alternativa para reducir la complejidad
es reducir el número de estados, agrupando
estados con propiedades similares
(recompensa, probabilidades de transición)
• Esto también se puede aplicar a dominios
continuos
• La desventaja es que la solución puede ya
no ser óptima
© L.E. Sucar: MGP - MDPs 48
Estados abstractos (cualitativos)

x Q2 x1, x2, x3, y1, y2, y3 son

Q1
x3
valores de referencia o
corte
x2
Q1=pos(x, x2),
x1
~pos(x,x3), pos(y, y1),
~pos(y,y3).
y
y1 y2 y3
Q2=pos(x, x1),
~pos(x,x2), pos(y, y1),
~pos(y,y3).
© L.E. Sucar: MGP - MDPs 49
Partición cualitativa
Una partición cualitativa q es un grupo de
estados con recompensas similares.

© L.E. Sucar: MGP - MDPs 50

Refinamiento

• Si la política obtenida no es satisfactoria, se

pueden agregar particiones adicionales o
desagrupar estados.
Q1-p1 Q2
Q1 Q3-p2-1
Q3-p1Q
3 Q
x2 Q1-p2 3-p2-1

Q4-p1
Q Q4-p2 Q5
4

© L.E. Sucar: MGP - MDPs 51

Descomposición
• La otra alternativa para simplificar la solución de
un MDP es “partir” el problema en subproblemas,
de forma que se puede resolver c/u por separado y
después “integrar la solución”
• Dos principales enfoques:
– serie: se descompone la tarea en subtareas de forma
que cada es una submeta que hay que cumplir para
alcanzar la meta global (p. ej. Heirarchical RL)
– paralelo: se descompone el problema en subproblemas
que puedan resolverse “independientemente” y
ejecutarse en “paralelo” (p. ej. Parallel MDPs,
Concurrent MDPs)
© L.E. Sucar: MGP - MDPs 52
Aprendizaje de MDPs
• Aprender el modelo:
– En base a una exploración aleatoria del ambiente, se
puede aprender el modelo de transición y la función de
recompensa
• Sin modelo:
– Se aprende directamente la política explorando el
ambiente (aprendizaje por refuerzo: Q-learning)
• Enfoques híbridos:
– Dyna-Q, priotarized sweeping, …

© L.E. Sucar: MGP - MDPs 53

Aplicaciones
• Manejo de inventarios
• Mantenimiento de equipos y carreteras
• Control de sistemas de comunicaciones
• Modelado de procesos biológicos
• Planeación en robótica móvil
• Construcción de mapas / localización
• Control de procesos industriales
• Control de aviones
• …

© L.E. Sucar: MGP - MDPs 54

Ejemplo de Aplicación

Control de una Planta Eléctrica

utilizando MDP
© L.E. Sucar: MGP - MDPs 56
Generador de vapor y domo

© L.E. Sucar: MGP - MDPs 57

Espacio de control
Recommended curve

186
Pressure in the dum (kg/cm2 g)

42 43 44 45 46 47
184
36 37 38 39 40 41
182
30 31 32 33 34 35
180
24 25 26 27 28 29
178
176 18 19 20 21 22 23
12 13 14 15 16 17
174
6 7 8 9 10 11
172
0 1 2 3 4 5
170
168
166
164
50% 60% 70% 80% 90% 100%

531 649 767 885 1003 1120

Flow of main steam (t/h)

© L.E. Sucar: MGP - MDPs 58

Ejemplo acciones
Recommended curve

186
Pressure in the dum (kg/cm2 g)

531 649 767 885 1003 1120

Flow of main steam (t/h)

© L.E. Sucar: MGP - MDPs 59

Variables relevantes

Flujo
de
vapor

Flujo de msv d
agua

fwv Presión
vapor

Q'
fms, fms_ref1’ 0 + -
fms, fms_ref1
‘
0 0.33 0.13 0.01

+ 0.33 0.82 0.00

fms, fms_ref2 fms,
fms_ref2’ - 0.33 0.05 0.99

ffw , ffw _ref ffw , ffw _ref’

Modelo d, d_ref d, d_ref’

de pd, pd_ref1’
pd, pd_ref1

Transición pd, pd_ref2 pd, pd_ref2’ acción: cerrar

pd, pd_ref3 pd, pd_ref3’ válvula

g, g_ref g, g_ref’

Power Plant
Simulator

Process Data Base

Operator
Factored MDP
Assistant

 El modelo de
transición se
obtuvo de a partir
del simulador

Resultados – comparación de un
MDP plano con uno factorizado

Parámetros a0 a1 a2 a3 Total Tiempo de

solución
MDP 147456 147456 147456 147456 589824 5.6 días
“plano”
MDP 175 175 204 204 758 2 minutos
factorizado

Resultados – comparación con el
control convencional
Policy Behavior (Medium Load)

Action 3

0
1

105

113

121

129

137

145

153
No of samples (500 ms time step)

control
discreteFactoredMDP

En algunos casos son similares, pero el MDP lleva

más rápidamente a la planta a un estado seguro.
© L.E. Sucar: MGP - MDPs 65
© L.E. Sucar: MGP - MDPs 66
Ejemplo de Aplicaciones

Coordinación de tareas para un robot

de servicio - Markovito
Coordinación de Tareas
para Robots de Servicio
• Una tarea compleja en robótica de servicio
requiere de diversas habilidades:
– Planeación de trayectorias
– Evitar obstáculos
– Localización
– Construcción de mapas
– Encontrar personas
– Reconocimiento y síntesis de voz
– Generación de expresiones
– …
© L.E. Sucar: MGP - MDPs 68
Coordinación
• La coordinación de los diferentes módulos
para realizar una tarea se base en un MDP
• De acuerdo a la tarea se define una función
de recompensa, y al resolver el MDP se
obtiene la política óptima para dicha tarea
• De esta forma diversos módulos se pueden
re-utilizar para diferentes tareas sólo
cambiando el MDP

Arquitectura de Software
Markovito: hardware
• Robot PeopleBot
• Cámara Pan/tilt
• Micrófono direccional
• 2 anillos de sonares
• Pinza
• Laser
• 2 computadoras (interna
& laptop)
• Monitor con “cara
animada”

Aplicaciones
• Basado en este enfoque se han desarrollado
diversas tareas para un robot de servicio:
– Robot mensajero: lleva mensaje u objetos de una
persona a otra
– Robot anfitrión: recibe visitantes y los guía en una
institución
– Navegación (Robocup@home): va a diferentes lugares
en una casa comandado por voz
– Busca y encuentra (Robocup@home): busca un objeto
– Seguimiento (Robocup@home): sigue a una persona

Navegación en un ambiente de “casa”
Mensajero

Enseñando a Markovito a Entregando una cerveza!

© L.E. Sucar: MGP - MDPs 73
Reconocer un objeto
MDPs Concurrentes
• Se requiere que el robot pueda hacer diversas acciones al
mismo tiempo, por ejemplo navegar, escuchar a una
persona y sonreír (cara animada)
• Si se consideran todas las combinaciones de acciones en
un MDP se tiene una explosión aún mayor en el número
de estados-acciones
• Una alternativa es dividir el problema en varias sub-tareas,
de forma que cada sub-tarea se representa con un MDP; y
las políticas de cada sub-MDP se ejecutan en forma
concurrente

MDPs Concurrentes
• Al descomponer el problema pueden existir conflictos entre
las sub-tareas, que pueden ser de dos tipos:
– Conflictos por recursos
– Conflictos por comportamiento
• Los conflictos por recursos se resuelven en un proceso de dos
fases, en la primera se resuelve cada subMDP en forma
independiente y se construye una política inicial combinada;
luego la política se afina usando iteración de políticas
• Los conflictos por comportamiento se resuelven a través de
una serie de restricciones definidas por el usuario, y en línea
se selecciona el conjunto de acciones de mayor valor que
satisfacen las restricciones
© L.E. Sucar: MGP - MDPs 75
Referencias
• [Russell & Norvig] – Cap. 17
• [Sucar, Morales, Hoey] - Cap. 3
• H. A. Taha, “Investigación de Operaciones”,
Alfaomega, 1991 – Cap. 14
• M. Puterman, “Markov Decision Processes”,
Wiley, 1994.

Referencias

• Blythe, J., 1999, Decision –Theoretic Planning. AAAI. AI

Magazine, 37-54.
• C. Boutilier, T. Dean, and S. Hanks. Decision-theoretic
planning: structural assumptions and computational
leverage. Journal of Artificial Intelligence Research,
11:1–94, 1999
• D. Suc and I. Bratko. Qualitative reverse engineering. In
Proceedings of the 19th International Conference on
Machine Learning, 2000.
• E. Morales. Scaling up reinforcement learning with a
relation representation.pages 15–26. Proc. of the Workshop
on Adaptability in Multi-agent Systems (AORC-2003),
2003.
© L.E. Sucar: MGP - MDPs 77
Referencias

• J. Hoey, R. St-Aubin, A. Hu, and C. Boutilier.

Spudd: Stochastic planning using decision
diagrams. In Proceedings of the 15th Conference
on Uncertainty in Artificial Intelligence, UAI-99,
pages 279–288, 1999.
• K. Forbus. Qualitative process theory. Artificial
Intelligence, 24, 1984.
• R.S. Sutton and A.G. Barto. Reinforcement
Learning: An Introduction. 1998.

Referencias
• E. Corona, E. Morales, L.E. Sucar, Executing concurrent
actions with concurrent Markov decision processes,
ADPRL, IEEE, 2009.
• P. Elinas, E. Sucar, A. Reyes and J. Hoey; A decision
theoretic approach to task coordination in social robots,
IEEE International Workshop on Robots and Human
Interactive Communications RO-MAN 04; Japan 2004.
Demo Videos.
• A. Reyes, P. H. Ibarguengoytia, L. E. Sucar; Power Plant
Operator Assistant: An Industrial Application of Factored
MDPs; Mexican International Conference on Artificial
Intelligence (MICAI-04); Mexico City; April 2004.
© L.E. Sucar: MGP - MDPs 79
Referencias
• A. Reyes, L. E. Sucar, P. Ibarguengoytia; Power Plant Operator
Assistant; Bayesian Modeling Applications Workshop in the 19th
Conference on Uncertainty in Artificial Intelligence UAI-03,
Acapulco-Mexico, August 2003.
• A. Reyes, M.A. Delgadillo, P. H. Ibarguengoytia; An Intelligent
Assistant for Obtaining the Optimal Policy during Operation
Transients in a HRSG; 13th Annual Joint ISA POWID/ EPRI
Controls and Instrumentation Conference; Williamsburg,
Virginia, June 2003.
• Ibargüengoytia P. H., Reyes A. 2001. Continuous Planning for
The Operation of Power Plants, Memorias del Encuentro
Nacional de Computación ENC 2001, Aguscalientes-Mexico.

Software
• MDPs
– Markov Decision Process (MDP) Toolbox v1.0 for
MATLAB (INRIA) http://www.inra.fr/bia/T/MDPtoolbox/
– Markov Decision Process (MDP) Toolbox for Matlab
(K. Murphy)
http://www.ai.mit.edu/~murphyk/Software/MDP/mdp.html
– SPUDD
http://www.cs.ubc.ca/spider/staubin/Spudd/

También podría gustarte

Logica Difusa Y Aplicaciones
Aún no hay calificaciones
Logica Difusa Y Aplicaciones
138 páginas
Lógica Difusa: Aplicaciones y Orígenes
Aún no hay calificaciones
Lógica Difusa: Aplicaciones y Orígenes
58 páginas
Presentacion Logica Difusa 17-04-2022
100% (1)
Presentacion Logica Difusa 17-04-2022
56 páginas
Introducción a la Lógica Borrosa
Aún no hay calificaciones
Introducción a la Lógica Borrosa
33 páginas
Tutorial de Introducción de Lógica Borrosa
100% (1)
Tutorial de Introducción de Lógica Borrosa
35 páginas
Cadenas de Markov
Aún no hay calificaciones
Cadenas de Markov
6 páginas
Procesos Estocasticos PDF
Aún no hay calificaciones
Procesos Estocasticos PDF
1 página
Introducción a la Ciencia y su Rol
100% (1)
Introducción a la Ciencia y su Rol
11 páginas
Logica Difusa. Diapositivas
100% (2)
Logica Difusa. Diapositivas
13 páginas
Taller Diseño de Experimentos.
Aún no hay calificaciones
Taller Diseño de Experimentos.
7 páginas
1 - Estadística Descriptiva
Aún no hay calificaciones
1 - Estadística Descriptiva
9 páginas
Estadística Inferencial en Administración
Aún no hay calificaciones
Estadística Inferencial en Administración
6 páginas
Tutorial de MATLAB: Simulaciones y Gráficas
Aún no hay calificaciones
Tutorial de MATLAB: Simulaciones y Gráficas
115 páginas
Ejercicios Avanzados de Estadística
100% (1)
Ejercicios Avanzados de Estadística
6 páginas
Operaciones en Conjuntos Difusos en MATLAB
100% (1)
Operaciones en Conjuntos Difusos en MATLAB
22 páginas
Evaluación - S05 A-B Estadistica Aplicada
Aún no hay calificaciones
Evaluación - S05 A-B Estadistica Aplicada
2 páginas
Probabilidades-Función de Densidad Condicional
Aún no hay calificaciones
Probabilidades-Función de Densidad Condicional
9 páginas
Lógica Borrosa en Contabilidad
Aún no hay calificaciones
Lógica Borrosa en Contabilidad
24 páginas
Cadenas de Markov
83% (6)
Cadenas de Markov
39 páginas
Democracia: Valor Universal y Retos
Aún no hay calificaciones
Democracia: Valor Universal y Retos
18 páginas
1 Taller Interpretación de Datos
Aún no hay calificaciones
1 Taller Interpretación de Datos
9 páginas
Dimensión de Correlacion
Aún no hay calificaciones
Dimensión de Correlacion
7 páginas
Maquiavelo y su Comedia Irreverente
Aún no hay calificaciones
Maquiavelo y su Comedia Irreverente
48 páginas
Estimación Por Intervalo 0218 PDF
Aún no hay calificaciones
Estimación Por Intervalo 0218 PDF
42 páginas
Guia Estadistica
100% (1)
Guia Estadistica
31 páginas
Guia Olea Parte 1
Aún no hay calificaciones
Guia Olea Parte 1
119 páginas
Arboles de Decisión
100% (1)
Arboles de Decisión
10 páginas
Libro Introduccion A Los Procesos Estocasticos
Aún no hay calificaciones
Libro Introduccion A Los Procesos Estocasticos
291 páginas
Unidad 1. Procesos Estocásticos y Movimiento Browniano
Aún no hay calificaciones
Unidad 1. Procesos Estocásticos y Movimiento Browniano
23 páginas
Cadenas de Markov
100% (1)
Cadenas de Markov
103 páginas
MATLAB para Ingeniería Universitaria
Aún no hay calificaciones
MATLAB para Ingeniería Universitaria
71 páginas
Logica Difusa
Aún no hay calificaciones
Logica Difusa
8 páginas
Grafo Bipartito
Aún no hay calificaciones
Grafo Bipartito
5 páginas
Lógica Difusa en la Vida Diaria
0% (1)
Lógica Difusa en la Vida Diaria
39 páginas
Procesos de Decisión de Markov y POMDP
Aún no hay calificaciones
Procesos de Decisión de Markov y POMDP
47 páginas
Procesos de Decisión de Markov
100% (1)
Procesos de Decisión de Markov
2 páginas
Procesos de Decisión de Markov y RL
Aún no hay calificaciones
Procesos de Decisión de Markov y RL
54 páginas
Introducción a Procesos de Markov
Aún no hay calificaciones
Introducción a Procesos de Markov
53 páginas
Programación Dinámica
Aún no hay calificaciones
Programación Dinámica
26 páginas
M3 - Procesos de Decisión de Markov
Aún no hay calificaciones
M3 - Procesos de Decisión de Markov
48 páginas
MDP Teoría
Aún no hay calificaciones
MDP Teoría
22 páginas
TransparenciasT12Urjc Ia
Aún no hay calificaciones
TransparenciasT12Urjc Ia
30 páginas
Modelos de Estados y Transiciones PDF
Aún no hay calificaciones
Modelos de Estados y Transiciones PDF
27 páginas
Procesos de Decisión Markovianos
Aún no hay calificaciones
Procesos de Decisión Markovianos
6 páginas
Informe Innovacion
Aún no hay calificaciones
Informe Innovacion
5 páginas
Ejercicios sobre Procesos de Decisión de Markov
Aún no hay calificaciones
Ejercicios sobre Procesos de Decisión de Markov
32 páginas
Informe Innovacion
Aún no hay calificaciones
Informe Innovacion
5 páginas
UNIDAD 4 STD MDPs Sem1 2020
Aún no hay calificaciones
UNIDAD 4 STD MDPs Sem1 2020
61 páginas
Metodos Aprendizaje Refuerzo
Aún no hay calificaciones
Metodos Aprendizaje Refuerzo
4 páginas
Examen 2025
Aún no hay calificaciones
Examen 2025
4 páginas
IA Practice Exam
Aún no hay calificaciones
IA Practice Exam
5 páginas
Markov
Aún no hay calificaciones
Markov
5 páginas
Avance Tesis Ddududud
Aún no hay calificaciones
Avance Tesis Ddududud
52 páginas
Introducción a la Programación Dinámica
100% (1)
Introducción a la Programación Dinámica
34 páginas
Programación Dinámica en Decisiones
50% (2)
Programación Dinámica en Decisiones
14 páginas
Tecnologias Inteligencia Artificial
Aún no hay calificaciones
Tecnologias Inteligencia Artificial
4 páginas
Investigación de Operaciones II
100% (1)
Investigación de Operaciones II
67 páginas
Programación Dinámica Determinística
Aún no hay calificaciones
Programación Dinámica Determinística
57 páginas
Programación Dinámica Determinista
50% (2)
Programación Dinámica Determinista
7 páginas
Programación Dinámica en Optimización
Aún no hay calificaciones
Programación Dinámica en Optimización
26 páginas
Supervisión Minera en Ventilación
100% (1)
Supervisión Minera en Ventilación
26 páginas
Responsabilidad Social - Final - 5
Aún no hay calificaciones
Responsabilidad Social - Final - 5
23 páginas
Tesis Horna Manchego
Aún no hay calificaciones
Tesis Horna Manchego
92 páginas
Infografia Del Proceso de Publicación de Un Artículo
Aún no hay calificaciones
Infografia Del Proceso de Publicación de Un Artículo
1 página
Mooc Herramientas Básicas e Introducción A La Investigación
Aún no hay calificaciones
Mooc Herramientas Básicas e Introducción A La Investigación
2 páginas
Optimización Lixiviación Minera Perú
Aún no hay calificaciones
Optimización Lixiviación Minera Perú
20 páginas
Combustion Ideal y Real - N°2
Aún no hay calificaciones
Combustion Ideal y Real - N°2
6 páginas
Combustion Ideal y Real - N°3
Aún no hay calificaciones
Combustion Ideal y Real - N°3
36 páginas
Problemas Geomecánicos en Minería
Aún no hay calificaciones
Problemas Geomecánicos en Minería
15 páginas
Método Sublevel Stoping en Minería Subterránea
Aún no hay calificaciones
Método Sublevel Stoping en Minería Subterránea
69 páginas
Camiones Fábrica para Explosivos
Aún no hay calificaciones
Camiones Fábrica para Explosivos
30 páginas
Comparativa Métodos Cualitativos y Cuantitativos
100% (1)
Comparativa Métodos Cualitativos y Cuantitativos
2 páginas
Rúbrica para Evaluar Infografías
Aún no hay calificaciones
Rúbrica para Evaluar Infografías
1 página
Cuadro Comparativo - Locomotoras Miras
Aún no hay calificaciones
Cuadro Comparativo - Locomotoras Miras
1 página
S10 Presupuesto Proyecto MUR A
Aún no hay calificaciones
S10 Presupuesto Proyecto MUR A
1 página
S8 y S9 - Costo Lineal
Aún no hay calificaciones
S8 y S9 - Costo Lineal
10 páginas
Importancia del Modelo OGSM en Gerencia
Aún no hay calificaciones
Importancia del Modelo OGSM en Gerencia
9 páginas
Notificación de Accidentes en Minería
Aún no hay calificaciones
Notificación de Accidentes en Minería
2 páginas
Teoremas de Bolzano y Bisección
Aún no hay calificaciones
Teoremas de Bolzano y Bisección
8 páginas
Resolución de Sistemas 2x2 en Matemáticas
Aún no hay calificaciones
Resolución de Sistemas 2x2 en Matemáticas
9 páginas
Sistemas de Numeración en Matemática
Aún no hay calificaciones
Sistemas de Numeración en Matemática
75 páginas
Riley RM Cap 8 Deflexiones en Vigas Reducido
Aún no hay calificaciones
Riley RM Cap 8 Deflexiones en Vigas Reducido
79 páginas
Transformadas de Fourier: Ejercicios
Aún no hay calificaciones
Transformadas de Fourier: Ejercicios
6 páginas
Megaprofe 281024005025
Aún no hay calificaciones
Megaprofe 281024005025
2 páginas
Taller 1
Aún no hay calificaciones
Taller 1
1 página
TP3 Resueltos CP LA
Aún no hay calificaciones
TP3 Resueltos CP LA
9 páginas
Tema 1: Distribuciones y Formas Cuadr Aticas: 1.1 Introducci On
Aún no hay calificaciones
Tema 1: Distribuciones y Formas Cuadr Aticas: 1.1 Introducci On
9 páginas
Variables Aleatorias y Distribuciones Continuas de Probabilidad
Aún no hay calificaciones
Variables Aleatorias y Distribuciones Continuas de Probabilidad
6 páginas
Ma 30.05 Prueba de Decimales 5 Basico
50% (2)
Ma 30.05 Prueba de Decimales 5 Basico
6 páginas
Espacios Vectoriales en Análisis de Datos
Aún no hay calificaciones
Espacios Vectoriales en Análisis de Datos
23 páginas
Integración por Fracciones Parciales
Aún no hay calificaciones
Integración por Fracciones Parciales
2 páginas
Guía de Clases para Primaria - Ciclo Verano
Aún no hay calificaciones
Guía de Clases para Primaria - Ciclo Verano
142 páginas
Banco Ejercicios de Recursividad
Aún no hay calificaciones
Banco Ejercicios de Recursividad
37 páginas
Guia Estudio Matematica 2015
100% (1)
Guia Estudio Matematica 2015
101 páginas
Taller 1 (MATEMATICA AVANZADA ADELANTO) PDF
Aún no hay calificaciones
Taller 1 (MATEMATICA AVANZADA ADELANTO) PDF
3 páginas
Inecuaciones y Problemas Matemáticos
Aún no hay calificaciones
Inecuaciones y Problemas Matemáticos
21 páginas
025 Unaj Calculo I
Aún no hay calificaciones
025 Unaj Calculo I
11 páginas
Pivoteo Parcial Escalado
Aún no hay calificaciones
Pivoteo Parcial Escalado
3 páginas
Examen Matemáticas Prefacultativo
Aún no hay calificaciones
Examen Matemáticas Prefacultativo
4 páginas
ESMATE 8° Unidad - 3 Parte 2
100% (1)
ESMATE 8° Unidad - 3 Parte 2
32 páginas
Formulario de Ecuaciones Diferenciales
Aún no hay calificaciones
Formulario de Ecuaciones Diferenciales
4 páginas
Sesión 4-Aprendizaje 4to - Sistema de Ecuaciones Lineales
Aún no hay calificaciones
Sesión 4-Aprendizaje 4to - Sistema de Ecuaciones Lineales
7 páginas
Grupo 1
Aún no hay calificaciones
Grupo 1
12 páginas
Área entre Curvas con GeoGebra
Aún no hay calificaciones
Área entre Curvas con GeoGebra
9 páginas
Examen de Fracciones para Estudiantes
Aún no hay calificaciones
Examen de Fracciones para Estudiantes
2 páginas
Evaluación de MATEMATICA Decimo Año
Aún no hay calificaciones
Evaluación de MATEMATICA Decimo Año
13 páginas
Sol Onem
Aún no hay calificaciones
Sol Onem
20 páginas
Formulario Derivadas
Aún no hay calificaciones
Formulario Derivadas
2 páginas