0% encontró este documento útil (0 votos)
114 vistas23 páginas

Notas Control Óptimo 3

Este documento presenta los conceptos fundamentales del control óptimo. 1) Define el problema de control como encontrar la función de control que minimice una función objetivo sujeta a restricciones dinámicas y terminales. 2) Enuncia el principio del máximo de Pontryagin, que establece las condiciones necesarias para que un control sea óptimo, incluyendo la condición de maximización de Hamiltoniana y la condición de transversalidad. 3) Explica que los sistemas con control óptimo son sistemas hamiltonianos y que la Hamiltoniana es
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
114 vistas23 páginas

Notas Control Óptimo 3

Este documento presenta los conceptos fundamentales del control óptimo. 1) Define el problema de control como encontrar la función de control que minimice una función objetivo sujeta a restricciones dinámicas y terminales. 2) Enuncia el principio del máximo de Pontryagin, que establece las condiciones necesarias para que un control sea óptimo, incluyendo la condición de maximización de Hamiltoniana y la condición de transversalidad. 3) Explica que los sistemas con control óptimo son sistemas hamiltonianos y que la Hamiltoniana es
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Control Óptimo

Tarea 3a
1 Formulción del problema
1.1 Control plant
Sea el modelo
ẋt = f(t, xt , ut )
(1)
x0 es dado,t ∈ [0, T ] , T es el horizonte, puede ser finito o infinito

donde
xt = (x1,t , ..., xn,t )⊤ ∈ Rn ,
ut = (u1,t , ..., ur,t )⊤ ∈ U ⊆ Rr ,

normalmente r ≤ n. Sistemas subactuados si r < n.

1.2 Criterio de control


1.2.1 Criterio
Sea la función objetivo
T
J(u(·)) = h0 (xT ) + h(t, xt , ut )dt → min (2)
0 u∈Uadm
estado final ó términal

donde u(·) es aproximada en cada instante de tiempo, para todo t a lo largo


de la curva u.

1.2.2 Conjunto terminal (Terminal Set):

Significa que al final de la trayectoria, se deben cumplir algunas restricciones .


Las l número de restricciones, todas se satisfacen en el mismo instante de
tiempo final T.

xT ∈ M := {xT ∈ Rn | gl (xT ) ≤ 0, l = 1, ..., L}


restricciones estáticas

Definition 1 Sea el funcional (2)

• El funcional de Bolza (forma general)

1
• El funcional de Lagrange si h0 (xT ) = 0, es decir, que solo tiene parte
integral,
• El funcional de Mayer si h(t, xt , ut ) = 0,es decir, que solo tiene estado
terminal.

1.2.3 Consideraciones principales


1. Todas las funciones h0 ; h y gl son Lipschitz continuos
2. Todas las derivadas parciales de estas funciones en x, son también Lip-
schitz continuas.

Definition 2 La función vectorial ut (t ∈ [0, T ]) se dice que es:


• Un contro es realizable (feasible control), si este es medible matem-
aticamente en [0, T ] y ut ∈ U (pertenece a zona admitible).
ut es medible matematicamente, si para cualquir constante c se cumple
{∃ t ≥ 0 : ut ≤ c} ⊆ [0, T ]

• Un es control admisible (admissible control),llevando a cabo las


condiciones terminales, si satisface la siguiente propiedad
xT ∈ M

y si es realizable, usaremos la notación


u(·) ∈ Uadm

Usando estas definiciones podemos formular el problema de control óptimo


- en la forma de Bolza como
T
J(u(·)) = h0 (xT ) + h(t, xt , ut )dt → min
0 u(·)∈ Uadm

1. Definition 3 en la forma de Lagrange, como


T
J(u(·)) = h(t, xt , ut )dt → min
0 u(·)∈ Uadm

y finalmente en la forma de Mayer, como


J(u(·)) = h0 (xT ) → min
u(·)∈ Uadm

Definition 4 Cualquier control u(·) ∈ Uadm es llamado optimal si sat-


isface
J(u∗ (·)) = min J(u(·))
u(·)∈ Uadm

y el par (x∗ (·), u∗ (·)) , donde x∗ (·) es la solución de (1). Si ut = u∗t ,es
llamado un par optimal.

2
Lemma 1 Cualquier problema de control óptimo en forma de Bolza puede ser
representado como un problema de control óptimo en forma de Mayer. Las 3
formulaciones anteriores son equivalente.
Proof. Se define un nuevo estado auxiliar (último componente en tiempo t)
t
xn+1,t := h(τ , xτ , uτ )dτ
τ =0

que satisface la siguiente ODE


ẋn+1,t := h(t, xt , ut ), xn+1,0 = 0
Por consiguiente, podemos representar la dinámica de la planta (1), respecto
al vector extendido, como
f(t, xt , ut ) ∈ Rn
ẋt = f (t, xt , ut ) =
h(t, xt , ut ) ∈ R1
se da x0 , t ∈ [0, T ]

donde
xt = (x1,t , ..., xn+1,t )⊤ ∈ Rn+1 ,
ut = (u1,t , ..., ur,t )⊤ ∈ U ⊆ Rr .
Entonces, la funcional original de Bolza se puede representar como
T
J (u(·)) = h0 (xT ) + h(t, xt , ut )dt = h0 (xT ) + xn+1,T := h0 (xT )
0
xn+1,T

donde xn+1,T es el último componente en tiempo T .


07/03/2022****************

2 Maximum principle de Fel’dbaum, Pontryagin


y Boltyanskii (Condiciones necesarias)
2.1 Horizonte fijo (Fixed horizon)
Theorem 1 Maximum principle. Si el par (x∗ (·), u∗ (·)) es optimal, en-
tonces se cumplen las siguientes 4 condiciones obligatoriamente:
1. Maximality condition: Maximiza por u∗t , la función de Hamilton para
cualquier instante de tiempo t.
u∗t = arg max H(ψ, x, u, t), t, x, u, ψ ∈ [0, T ] × Rn × Rr × Rn
u(·)∈ Uadm
H(ψ, x, u, t) := ψ⊤ f(t, x∗t , u) − h(t, x∗ , u)
f (t, x∗ , u) representa la dinámica del sistema
h(t, x∗ , u) argumento de funcional

ψ̇ t = − H(ψt , xt , ut , t)
∂x

3
donde ψ es un multiplicado dinámico de Lagrange.
2. Transversality condition (condiciones terminales para ψT ): Siempre
se presenta en fronteras variantes.
L

ψT = − h0 (x∗T ) − ν l gl (x∗T )
∂x
l=1

donde ν l gl (x∗T ) representan l restricciones y ν l es un multiplicado es-


tático de Lagrange.
3. Complementary slackness condition
ν l gl (x∗T ) = 0

Propiedad que se cumple a partir de los multiplicadores de lagrange.


ν l = 0 si gl = 0
en la frontera
ν l = 0 si gl < 0
punto interior

4. Notriviality condition: En el mismo tiempo, todos los multiplicadores


de Lagrange no pueden ser cero.
L
ψT + νl > 0
l=1

Theorem 2 Cualquier sistema dinámico con un control óptimo es Hamilto-


niano, es decir,

ẋt = H(ψt , xt , u∗t , t), x0 esta dado
∂ψ

ψ̇t = − H(ψt , xt , u∗t , t), ψT satisface la condición de transversalidad
∂x
Corollary 1 Para cualquier sistema estacionario (cuando las funciones no

dependen de t), es decir, H = 0,
∂t
H(ψt , xt , u∗t , t) = const.
t∈[0,T ]

Proof. Sea u∗t un control optimal (función fija), se calculan las derivadas re-
specto al tiempo.
d ∂ ∂ ⊤ ∂ ⊤
H(ψt , xt , u∗t , t) = H(ψt , xt , u∗t , t) + H (ψt , xt , u∗t , t) ẋt + H (ψt , xt , u∗t , t) ψ̇t =
dt ∂t ∂x ∂ψ
0 ∂ ∂
H − H
∂ψ ∂x
∂ ⊤ ∂ ∂ T ∂
H H− H H = 0.
∂x ∂ψ ∂x ∂ψ

4
2.2 Horizonte no fijo y propiedad cero (Nonfixed horizon
and zero property)
Condificiones donde no se conoce exatamente el tiempo fijado. Sea la funcional,
que depende del tiempo final

h0 = h0 (xT , T ), gl = gl (xT , T ), (l = 1, ..., L).

Prueba pag. 707 (en libro).

Theorem 3 Si el par (x∗ (·), u∗ (·)) es optimal, entonces se cumplen las 4


condiciones estandar obligatoriamente y además se cumple la sigueinte
5a condición
L
∂ ∂
H(ψT , xT , u∗T , T ) = h0 (x∗T , T ) − νl gl (x∗T , T )
∂T ∂T
l=1

Corollary 2 Adicionalmente, si en un H no depende de t se cumple


∂ ∂
h0 (x∗T , T ) = gl (x∗T , T ) = 0
∂T ∂T
Si h0 no depende de tiempo T y si las restricciones tambien son estacionaras,
es decir, tampoco dependen del tiempo. Entonces, las derivadas espaciales que
participan en esta definición para tiempo T , es [Link] para todo t ∈
[0, T ], se cumple
H(ψt , x∗t , u∗t , t) = 0
donde H es constante y tiene que ser cero durante todo el proceso, debido a
que las restricciones no depende de t. Para sistemas que cumplen esta propiedad
no es necesario resolver el principio del máximo para encontrar el control óp-
timo, basta con resolver la ecuación algebraica, y encontrar u tal que H = 0.
Este tipo de funciones que son constantes en trayectoria de un sistema
Hamiltoniano, se llaman primeras integrales.

Prueba pag. 708 (en libro).

2.3 Control óptimo y optimización paramétrica, juntos


Considere el sistema no lineal, que depende de algunos parámetros α

ẋt = f(t, xt , ut ; α), α ∈ Rp


x0, t ∈ [0, T ] es dado,

se considera α constante y sin restricciones (α también se puede consid-


erar como control). Entonces, cada trayectoria depende de α.

5
Theorem 4 Si la tercia (x∗ (·), u∗ (·), α∗ ) es optimal, entonces se cumplen las
4 condiciones estandar obligatoriamente y además se cumple la siguiente
5a condición extremal

T ∂
t=0 H(ψt , xt , u∗t , t; α)dt = 0
∂α

Prueba pag. 710 (en libro).

2.3.1 Condiciones suficientes para control optimo por Principio del


Máximo
Theorem 5 Si el par (x∗ (·), u∗ (·)) es optimal, ψ∗t corresponde a la dinámica
adjunta, y adicionalmente se cumplen las condiciones:

• h0 (x), gl (x)(l = 1, ..., L) son funciones convexas;


• H(ψt , xt , ut , t) es concava para cualquier tiempo t ∈ [0, T ] en (x, u), es
decir,
 
∂2 ∂2
 ∂x∂x H H 
 ∂2 ∂x∂u  ≤0
∂2
H H
∂u∂x ∂u∂u

entonces el par (x∗ (·), u∗ (·)) garantiza la condición maximal

H(ψt , x∗t , u∗t , t) = arg max H(ψt , x∗t , u, t)


u(·)∈Uadm

y entonces se puede garantizar que u∗t es un control óptimo.

Prueba pag. 712 (en libro)

2.4 Shooting algorithm for simulation of MP optimal con-


trol (Método de disparo)
Esquema de realización del control óptimo diseñado por el método MP.

• Se fija cualquier control inicial (que no es ncesariamente optimal) ut =


(k)
ût , k = 0− es una aproximación inicial del control óptimo en el paso k.
Luego realice el movimiento
∂ (k) (k) (k)
ẋt = H(ψt , xt , u∗t , t) ⇒ ẋt = f (t, xt , ût ), x0 es dado, k = 0,
∂ψ

(k)
1. • se obtiene xT.

6
• A partir de la condición de tranversalidad, se define en fin de proceso
L
(k) ∂ (k) (k)
ψT = − h0 (xT ) − ν l gl (xT ) (3)
∂x
l=1

y realice la dinámica en la dirección hacia atrás


(k) ∂ (k) (k) (k) ∂ (k) (k) (k) ∂ (k) (k)
ψ̇t =− H(ψt , xt , ût , t) = − f t, xt , ût ψt − h t, xt , ût
∂x ∂x ∂x
(k)
ψT satisface la condición de Transversalidad (3), dadas a partir de
las restricciones y estados finales.
• Se aproxima u en puntos discretos (finite-points approximation),
(k)
u(·) ∈ Uadm , es decir, definido ût ∈ Rq , donde q es suficientemente
(k+1)
largo (10 ) y defina la siguiente aproximación ût
5
, como
(k+1) (k) (k) (k)
ût = arg max H(ψt , xt , ût , t)
û∈U

Este proceso puede realizarse mediante el método de gradiente


proyectado (cuando hay restricciones), con (ts ) como una discretización
por tiempo:

(k+1) (k) ∂ (k) (k)


ûts = πU ûts + γ H(ψt , xt , û, t)
∂ û

para cada (ts ) se obtiene un problema de optimización.


• Y luego iteramos el proceso.

Example 1 NEGOCIO DE MERCANCÍA. El siguiente es un modelo simple


para el comercio de un producto básico, digamos trigo (trigo). Dejamos que
T sea la duración fija del período comercial e introducimos las variables

- x1,t es el dinero disponible en el momento t,


- x2,t es la cantidad de trigo que se posee en el momento t,
- αt es la tasa de compra o venta de trigo,
- qt es el precio de 1 kilo de trigo en el momento t,
- λ es el costo de almacenar una cantidad unitaria de trigo por unidad de tiempo,

7
Suponemos que el precio del trigo qt se conoce para todo el período
comercial 0 ≤ t ≤ T (aunque esto probablemente sea poco realista en la práctica).
Suponemos también que la tasa de compra y venta está restringida:

|αt | ≤ M,

donde αt > 0, significa comprar trigo, y αt < 0 significa vender. Nuestro


objetivo es maximizar mediante αt := ut nuestras tenencias al final del tiempo
T , es decir, la suma del efectivo disponible y el valor del trigo que
poseemos:

x1,T + qT x2,T → max


u(·)∈Uadm
equivalentemente
(4)
J(u(·)) = −(x1,T + qT x2,T ) := h0 (xT ) → min
u(·)∈Uadm

h(t, xt , u) = 0, sin término integral (forma de Mayer).

La evolución del modelo considerado


ẋt = f(t, xt , ut ), n = 2
M = R2 , sin restricciones de terminal: gl (xT ) = 0

viene dada por la siguiente EDO (a partir de las posibles pérdidas):

ẋ1,t = −λx2,t − qt αt
ẋ2,t = αt

Este es un caso no autónomo (dependiente del tiempo), pero resulta


que el principio máximo de Pontryagin todavía se aplica.

H(ψt , xt , αt , t) := ψ⊤
t f (t, xt , αt ) − h (t, xt , αt )
0
T
ψ1,t −λx2,t − qt αt (5)
= −0
ψ2,t αt
= ψ1,t (−λx2,t − qt αt ) + ψ2,t αt

Las EDO para joint variables:



ψ̇t = − H(ψt , xt , αt , t)
∂x
son
ψ̇1,t = 0 ⇒ ψ1,t = const
(6)
ψ̇ 2,t = λψ1,t ⇒ ψ2,t = λψ1,t t + const

8
1. Condición de Maximalidad:
u∗t = α∗t = arg max H(ψ, x∗ , α, t) =
  α:|α|≤M  
   
arg max ψ1,t  −λx2,t − qt αt  + ψ2,t αt  =
α:|α|≤M
0, no dep de αt
arg max αt ψ2,t − ψ 1,t qt ,
α:|α|≤M

lo que implica

 M si ψ2,t − ψ1,t qt > 0
α∗t = −M si ψ2,t − ψ1,t qt < 0 := M sign ψ 2,t − ψ1,t qt (7)

0 si ψ2,t − ψ1,t qt = 0

por lo tanto
α∗t = Msign ψ2,t − ψ1,t qt

2. Condición de Transversalidad:
L

∂ 
ψ T = − h0 (x∗T ) − ν l gl (x∗T ) 



∂x 
l=1
(8)
0 

−(x1,T + qT x2,T ) := h0 (xT ) 



ψ1,T = 1, ψ2,T = qT

igualando condiciones de tranversalidad en T a partir de (8) e integrar


(6)
ψ1,t = const,ψ1,T = const = 1
ψ2,t = λψ1,t t + const, ψ2,T = λT + const =qT
1
despejando de ψ 2,T
const =qT − λT
ψ2,t = λt + qT − λT = λ (t − T ) + qT

por lo tanto
 
 
α∗t = M sign ψ2,t − ψ1,t qt  =
(9)
1
Msign [λ (t − T ) + qT − qt ]

donde α∗t es el control óptimo, que proporciona una dinámica óptima

ẋ∗1,t = −λx∗2,t − qt α∗t = −λx∗2,t − qt M sign [λ (t − T ) + qT − qt ]


ẋ∗2,t = α∗t = Msign [λ (t − T ) + qT − qt ]

9
equivalentemente

x∗1,t = x∗1,0 − M qt sign [λ (t − T ) + qT − qt ] dτ


 τ =0 
t

−λ x∗2,0 + M qt sign [λ (t − T ) + qT − qt ] dτ  , (10)


τ =0
t

x∗2,t = x∗2,0 +M qt sign [λ (t − T ) + qT − qt ] dτ


τ =0

3. Complementary slackness condition. No se aplica, debido a que no


existen restricciones estacionarias.
4. Notriviality condition: Lo multiplicadores de Lagrange dinámicos no
son cero.

Exercise 1 Encuentre el control óptimo para el problema

T =1

J(u(·)) = ẋT =1 + ẋt (1 − xt ) + γu2t dt → min 1


u(·)∈R
t=0
ẍt = ut , x0 = 0, ẋ0 = 1, γ > 0

Hint (ayuda):
ẋ1,t = x2,t
ẋ2,t = ut

09/03/2022*************

3 Dynamic programming of Isaacs and Bellman


(Condiciones suficientes)
3.1 Principio de Bellman (BP)
Formulación: "Cualquier resto de una trayectoria óptimal también es óptima",
pp.717.
¿Que tipo de funcionales satisfacen este principio?

10
Theorem 6 (Condición Suficiente de BP). Se separa el intervalo [0, T ] en
dos partes
[0, T ] = [0, t′ )∪[t′ , T ]
[0, t′ ) para incio de proceso
[t′ , T ] para fin de proceso
Se definen también dos acciones de control:

u1 (t), t ∈ [0, t′ ) y u2 (t)t ∈ [t′ , T ].

donde u1 (t) y u2 (t) son llamados estrategias de control inicial y final, re-
spectivamente.

Si

• La funcional de costo es separable para cualquier tiempo t′ ∈ (0, T ), es


decir,
J(u(·)) = J1 (u1 (·), J2 (u2 (·))).
donde la estructura original puede ser diferente a la estructura después de
la separación.

Theorem 7 • La funcional J1 (u1 (·), J2 (u2 (·))) es monótonamente no


decreciente con respecto al segundo argumento J2 (u2 (·)), es decir,

J1 (u1 (·), J2 (u2 (·))) ≥ J1 (u1 (·), J2 (u′2 (·))),


tal que
J2 (u2 (·)) ≥ J2 (u′2 (·)).

donde J2 (u′2 (·)) representa otra estrategía.

Proof. Sea
J∗ = inf J(u(·)) = inf inf J1 (u1 (·), J2 (u2 (·))
u(·)∈ Uadm u1 (·)∈ Uadm u2 (·)∈ Uadm (11)
≤ J1 (u1 (·), J2 (u2 (·)))

seleccionando como estrategía

u2 (·) = arg inf J2 (u2 (·))


u2 (·)∈ Uadm

por lo tanto, (11) satisface

J ∗ ≤ J1 u1 (·), inf J2 (u2 (·)) ,


u2 (·)∈ Uadm

y si además optimizamos por la estrategía u1 (·),implica que

J∗ ≤ inf J1 u1 (·), inf J2 (u2 (·)) .


u1 (·)∈ Uadm u2 (·)∈ Uadm

11
empleando la propiedad de monótonamente decreciente con respecto al
segundo argumento se obtiene

J∗ ≤ inf J1 u1 (·), inf J2 (u2 (·)) ≤


u1 (·)∈ Uadm u2 (·)∈ Uadm
inf inf J1 (u1 (·), J2 (u2 (·))) = J ∗
u1 (·)∈ Uadm u2 (·)∈ Uadm

Corollary 3 La propiedad de monotonicidad se puede expresar como

J∗ = inf inf J1 (u1 (·), J2 (u2 (·))) = inf J1 u1 (·), inf J2 (u2 (·))
u1 (·)∈ Uadm u2 (·)∈ Uadm u1 (·)∈ Uadm u2 (·)∈ Uadm

Corollary 4 La funcional de costo en la forma de Bolza,


T

J(u(·)) = h0 (xT ) + h(t, xt , ut )dt


t=0

satisface el principio de Bellman (principio de separación), debido a


que la integral es un operador aditivo
J(u(·)) = J1 (u1 (·)) + J1 (u2 (·))
donde
t′ T

J1 (u1 (·)) = h(t, xt , ut )dt, J2 (u2 (·)) = h0 (xT ) + h(t, xt , ut )dt.


t=0 t=t′

Remark 1 La funcional
T

h̃10 (xT ) + h̃1 (t, xt , ut )dt


t=0
J(u(·)) = T

h̃20 (xT ) + h̃2 (t, xt , ut )dt


t=0

no satisface las condiciones del teorema en general.

3.2 Invariant embedding (inmersión) and Value Function


3.2.1 Ecuación de programación dinámica (DP) en forma integral
Considere el sistema
ẋt = f (t, xt , ut ), t ∈ [s, T ], s ∈ [0, T ]
xs = y, condiciones iniciales

12

donde s representa un tiempo intermedio, xt = (x1,t , ..., xn,t ) ∈ Rn , ut =
(u1,t , ..., un,t )⊤ ∈ U ⊆ Rr . Ahora defina
T

J(s, y; u(·)) := h0 (xT ) + h(t, xt , ut )dt.


t=s

donde J comienza en un tiempo s, con condiciones iniciales y, aplicando


control u (a esto se le conoce como embedding). Es decir, consideramos varios
momentos de inicio s′ y varios condiciones iniciales y, entonces consideramos
muchas trayectorias. Consideramos una clase de problemas general y nuestro
problema es una solución particular dentro de la clase, que garantiza la estabil-
idad en lazo cerrado.
Por otro lado, evidentemente

J(u(·)) = J(0, x0 ; u(·)).

Definition 5 (Value function). Se define

V (s, y) := inf J(s, y; u(·)).


u(·)∈ Uadm [s,T ]

donde el mínimo valor que se puede obtener, comenzando en un tiempo s y


conficiones incial y, es el valor mínimo de J(s, y; u(·)), respecto al control.

Theorem 8 (Principio de programación dinámica en forma integral).


Bajo las condiciones estándar, la siguiente propiedad se cumplen aplicando el
principio de separación
 

 


 s′



 

′ ′
V (s, y) = inf h(t, xt , ut )dt +V (s , x(s ), u(·)))
u(·)∈ Uadm [s,T ] 
 


t=s 2do intervalo



 

1er intervalo
para cualquier s′ ∈ [s, T ], x(s) = y

Revisar pag. 721 (en libro)

3.3 Ecuación de Hamilton-Jacobi-Bellman (HJB) y la regla


de verificación
3.3.1 Ecuación de HJB
Theorem 9 (Ecuación de HJB). Si la función de valor V (s, y) es continu-
amente diferenciable C 1 (suficientemente suave), entonces satisface la sigu-

13
iente ecuación diferencial parcial (PDE) (sin condición terminal: M = Rn ).

∂ ∂
− V (t, x) + sup H − V (t, x), x, u, t = 0
∂t u∈U ∂x
(12)
V (T, x) = h0 (x),
H(ψ, x, u, t) = ψ⊤ f (t, x, u) − h(t, xt , ut )

Si u es acotado y H diferenciable y su derivada es continua, la solución es


alcanzable y tenemos máximo en vez de supremo.

Theorem 10 (Verification rule). Suponga que

∂ ∂
u∗t = arg sup H − V (t, x), x, u, t = u∗t t, x, V (t, x) (13)
u∈U ∂x ∂x

y suponga también que se puede obtener la solución de la ecuación HJB



respecto a la variable V (t, x), sustituyendo u∗t
∂x

∂ ∂ ∂
− V (t, x) + H − V (t, x), x, u∗t t, x, V (t, x) =0
∂t ∂x ∂x (14)
V (T, x) = h0 (x)

como V (t, x). es la solución. Entonces se garantiza que el control u∗t en (13)
es optimal.

Prueba pag. 725 (en libro). Para aplicar esté metodo es necesario que
V (t, x) exista y sea suficientemente suave.

3.3.2 Dinámica afín (lineales respecto del control) de sistemas esta-


cionarios no lineales con costo Cuadratico
Considere la planta

ẋt = f (xt , u) = f0 (xt ) + f1 (xt )u, f1 : Rn → Rn×r (15)


ẋt es afín al control

y la funcional de costo

J(u(·)) = h(x, u)dt


t=0
h(x, u) = x⊤ Qx + u⊤ Ru, Q ≥ 0, R > 0, h0 = 0

14
1. Sea la ecuación de HJB
∂ ∂

V (x) + sup H(− V (x), x, u) = 0 ⇔
∂t u∈U ∂x
0
' (


maxH(ψ, x, u) = maxr − V (x) [f0 (xt ) + f1 (xt )u] − x⊤ Qx + u⊤ Ru
u∈Rr u∈R ∂x
) *

∗ ∂ ⊤
ut = arg max − V (x) f1 (xt )u − u Ru ⇒
u∈Rr ∂x
) *

∂ ∂ ∂
− f1 (xt ) V (x) u − u⊤ Ru = −f1 (xt ) V (x) − 2Ru = 0
∂u ∂x ∂x
1 ∂
u∗t = − R−1 f1 (xt ) V (x)
2 ∂x

2. Se verifica que la ecuación de HJB=0

∂ ∂
0 = sup H − V (x), x, u ⇒ H − V (x), x, u∗ = 0
u∈U ∂x ∂x
sustituyendo u∗

∂ 1 ∂
− V (x) f0 (xt ) − f1 (xt )R−1 f1 (xt ) V (x) − x⊤ Qx−
∂x 2 ∂x

1 ∂ ∂
f1 (xt ) V (x) R−1 f1 (xt ) V (x) ⇒
4 ∂x ∂x
⊤ ⊤
1 ∂ ∂ ∂
f1 (xt ) V (x) R−1 f1 (xt ) V (x) − V (x) f0 (xt ) − x⊤ Qx
4 ∂x ∂x ∂x
⊤ ⊤
1 ∂ ∂ ∂
f1 (xt ) V (x) R−1 f1 (xt ) V (x) − V (x) f0 (xt ) − x⊤ Qx = 0
4 ∂x ∂x ∂x
(16)
Esta nueva ecuación que no depende de u, es una ecuación cuadrática

con respecto a V (t, x) que se denominada ec. de Hamilton Jacobi
∂x

(HJ). Tal que, V (x) es la solución de la ec. de HJ, para el control
∂x
1 ∂
u∗t = − R−1 f1 (xt ) V (x) (17)
2 ∂x

3. Se aplica regla de verificación, tal que V (x) es solución de HJ=0. De-
∂x
bido a que se tiene una ec. cuadrática, se debe elegir la solución que haga
al sistema estable.

14/03/2022***********

15
⊤ ⊤
1 ∂ ∂ ∂
Sea la ecuación de HJ f1 (xt ) V (x) R−1 f1 (xt ) V (x) − V (x) f0 (xt ) − x⊤ Qx = 0
4 ∂x ∂x ∂x
(16), la cual puede ser reescrita a partir de normas, como
+ +2
∂ 1 + −1 ⊺ ∂
+
− V (x)⊺ f0 (x) − x 2Q + + +R f1 (x) V (x)+ =0
+ (18)
∂x 4 ∂x R

donde, los subíndices Q y R indican que esas matrices existen entre dos vec-
2
tores, por ejemplo, x Q = x⊤ Qx. Supongamos también, por simplicidad, que
tratamos con la subclase especial de los sistemas afines, para los cuales la matriz
f1 (x)R−1 f1 (x)⊺ es invertible para cualquier x ∈ Rn , es decir,

rank f1 (x)R−1 f1 (x)⊺ = n (19)


de manera que el sistema dinámico ẋ sea completamente controlable en todos
sus estados. Definiendo una nueva variable
1/2
Rf (x) := f1 (x)R−1 f1 (x)⊺ >0 (20)

la cual es, por (19), es estrictamente positivo y, por lo tanto,Rf−1 (x) existe.
Entonces la ecuación (18) puede ser reescrita como
+ +2
∂ 1 + −1 ⊺ ∂
+
− V (x)⊺ f0 (x) − x 2Q + + +R f1 (x) V (x)+ =0
+
∂x 4 ∂x R
que es equivalente a
+ +2 ++ 1/2 ∂
+2
+
2 + −1/2 + + −1/2
x Q + +Rf (x) f0 (x)+ = +Rf (x) V (x) − 2Rf (x) f0 (x)+
+
∂x
escalar escalar variable
(21)
Proof. A continuación se demuestra la equivalencia anterior.

+ + + +2
2+ −1/2 + + 1/2 ∂ −1/2 +
x + +Rf
Q (x) f0 (x)+ = +R
+ f (x) V (x) − 2R f (x) f0 (x)+
+
+ + ∂x
+ +2 1 + ∂ +2
∂ +
+ −1/2 + 1/2 1/2 −1/2 + −1/2
x 2Q + +Rf (x) f0 (x)+ = + + Rf (x) V (x)+
+ − Rf (x) V (x) Rf (x) f0 (x) + +Rf (x) f
4 ∂x ∂x
+ +2 + +2 1 + + 1/2 ∂
+2
+ ∂
+ −1/2 + + −1/2 + 1/2 −1/2
x 2Q + +Rf (x) f0 (x)+ − +Rf (x) f0 (x)+ = + +Rf (x) V (x)+
+ − Rf (x) V (x) Rf (x) f
4 ∂x ∂x
0 + +2
1+ +
+R1/2 (x) ∂ V (x)+ − ∂ V (x)⊺ f0 (x) − x 2
0= + f + Q
4 ∂x ∂x
1/2
sustituyendo Rf (x) := f1 (x)R−1 f1 (x)⊺
+ +2
1++ −1 ⊺ ∂
+ ∂ ⊺ 2
0 = +R f1 (x) V (x)+
+ − ∂x V (x) f0 (x) − x Q
4 ∂x

16
Note que (21) nos permite agrupar términos constantes por la izquierda y la
variable desconocida por la derecha, que implica la siguiente representación:
1 1/2 ∂ −1/2
Rf (x) V (x) − Rf (x) f0 (x) = ē (x) r (x)
2 ∂x
escalar
, donde
+ +2
2 + −1/2 +
r (x) := x Q + +Rf (x) f0 (x)+
ē (x) un vector unitario ( ē (x) = 1)
Note que existen muchas soluciones para el vector unitario ē (x) .Despejando

V (x) de la ec. anterior, se obtiene
∂x
1 ∂ −1/2
V (x) = R−1
f (x) f0 (x) + Rf (x) ē (x) r (x)
2 ∂x
−1 −1/2
= f1 (x)R−1 f1 (x)⊺ f0 (x) + Rf (x) ē (x) r (x)

Por lo tanto, el control optimal (17) es

1 ∂
u∗ (x) = −R−1 f1 (x)⊺ V (x) =
2 ∂x

−R−1 f1 (x)⊺ f1 (x)R−1 f1 (x)⊺


−1
f0 (x) + (22)

−1
r (x) f1 (x)R−1 f1 (x)⊺ ē (x)

Existen muchas manera para seleccionar ē (x). Sustituyendo (22) dentro de (??)
conduce a la expresión final para la trayectoria óptima:

ẋ = f (x, u) = f0 (x) + f1 (x)u∗ = −r (x) ē (x)

En el caso cuando T → ∞ , se necesita garantizar la estabilidad de las trayec-


torias x (T ) → 0. Para seleccionar ē (x)cumpliendo esto, consideremos la
T →∞
1
función W (x) = x 2 , para la cual se tiene la función de Lyapunov
2
Ẇ (x (t)) = x⊺ (t) ẋ (t) = −r (x) x⊺ (t) ē (x)

Tomando, por ejemplo


1
ē (x) := √ SIGN(x)
n
SIGN(x) := (sign (x1 ) , ..., sign (xn ))

17
se obtiene
r (x)
Ẇ (x (t)) = − √ x⊺ (t) SIGN(x (t)) =
n
n
r (x) - r (x) .
−√ |xi (t)| ≤ − √ 2W (x (t)) < 0
n i=1 n
para x (t) = 0. Si, aditionalmente, r (x) ≥ c > 0, esto implica
,
2 .
Ẇ (x (t)) ≤ − c W (x (t))
n
, ,
dW (x (t)) 2 . . 2
. ≤− c dt ⇔ 2 W (x (t)) − W (x (0)) ≤ − ct
W (x (t)) n n
. . c
0≤ W (x (t)) ≤ W (x (0)) − √ t
2n
y, como resultado, W (x (t)) → 0 en tiempo finito
.
treach = 2nW (x (0))/c,

de modo que V (x (t)) = 0 para cualquier t ≥ treach , se cumple la propiedad de


estabilidad con el control óptimo

−1
u∗ (x) = −R−1 f1 (x)⊺ f1 (x)R−1 f1 (x)⊺ [f0 (x) + r (x) SIGN(x)] (23)

Para el caso escalar, se reduce a encontrar la solución de la ec. cuadrática


2
1 ∂ ∂
f1 (xt )⊤ R−1 f1 (xt ) V (x) − f0 (xt ) V (t, x) − x⊤ Qx = 0
4 ∂x ∂x
b c
a x2 x
/
1
f0 (xt )2 − 4 f1 (xt )⊤ R−1 f1 (xt ) (x⊤ Qx)
∂ f0 (xt ) 4
V (x)1,2 = ±
∂x 1 1
2 f1 (xt )⊤ R−1 f1 (xt ) 2 f1 (xt )⊤ R−1 f1 (xt )
4 4
Exercise 2
ẋt = −x3t + ut , ut ∈ R1
1 ∞ 2
J(u(·)) = x + u2t dt → min
2 t=0 t u(·)∈Uadm

Hint (ayuda): xt debe ser estable.

18
3.3.3 Time-Average Cost Stationary Optimal Control
Sea el sistema

ẋt = f (xt , ut ) , t ∈ [0, ∞]


x0 esta dado

1 T
J(u(·)) = lim sup h (xt , ut ) dt → inf
T →∞ T t=0 u(·)∈Uadm

Remark 2 La planta controlable debe ser BIBO estable (Bounded Input


Bounded Output) .

Theorem 11 Si el control

u∗t = u∗t x, V (x)
∂x

es la solución de la ecuación de HJ, debido a que el máximo es alcanzable


H − V (xt ) , xt , u∗t = 0,
∂x

entonces es un control óptimo.

Proof. Suponiendo que el par (x∗ (·), u∗ (·)) es optimo. Entonces

∂ ∂
H − V (x∗t ) , x∗t , u∗t =0≥H − V (xt ) , xt , ut
∂x ∂x

el cual, tras la integración produce

1 T ∂ 1 T ∂
− V ⊺ (x∗t ) f (x∗t , u∗t ) − h (x∗t , u∗t ) dt ≥ − V ⊺ (xt ) f (xt , ut ) − h (xt , ut ) dt
T t=0 ∂x T t=0 ∂x
 

1 T 1 T 1 T  ∂ ⊺ ∂ ⊺ ∗ 

h (x∗t , u∗t ) dt ≤ h (xt , ut ) dt +  V (xt ) f (xt , ut ) − V (xt ) f (x∗t , u∗t ) dt =
T t=0 T t=0 T t=0  ∂x ∂x 
d(V (xt ))=V ⊺ (xt )·ẋ d(V (x∗ ∗
t ))=V (xt )·ẋ
⊺ ∗

1 T 1 T
h (xt , ut ) dt + d (V (xt ) − V ∗ (xt )) =
T t=0 T t=0
1 T 1
h (xt , ut ) dt + ([V (xT ) − V (x∗T )] − [V (x0 ) − V (x∗0 )])
T t=0 T
V (xT ) − V (x∗T ) están acotados, ⇔ sistema BIBO estable

19
Por lo tanto, tenemos la menor pérdida promedio
T T
1 1
lim sup h (x∗t , u∗t ) dt ≤ lim sup h (xt , ut ) dt.
T →∞ T T
t=0 t=0
T →∞ T →∞

Exercise 3 Encontar u∗t y J(u∗ (·)) para el problema

ẋt = − sin2 (xt ) + ut , ut ∈ R1


1 T 1
J(u(·)) = lim sup |xt | + u2t dt → inf
T →∞ T t=0 2 u(·)∈Uadm

Hint (ayuda):Si una función tiene un límite, entonces su funcional prome-


dio tiene el mismo límite (lema de Teöplitz): Rev. Libro Dr. Poznyak.
Lemma 2 Si tenemos una función f (t) que converge a f ∗ , entonces el prome-
dio de la integral de la función f (t), también convergerá al mismo valor f ∗

1 T
f (t) → f ∗ ⇒ lim f (t) dt = f ∗ (24)
t→∞ T →∞ T t=0

Exercise 4 Proof. Defina la función de Lyapunov Wt


 t
2
1 1
Wt := f (τ ) dτ − f ∗  ,
2 t
τ =0

para lo cual tenemos


1 t 1 t 1
Ẇt = f (τ ) dτ − f ∗ − 2 f (τ) dτ + f (t) =
t τ =0 t τ =0 t
1 1 t ∗ 1 t
− f (τ ) dτ − f f (τ ) dτ − f + f ∗ − f (t) =

t t τ =0 t τ =0
2
1 1 t 1 1 t
− f (τ ) dτ − f ∗ − f (τ) dτ − f ∗ [f ∗ − f (t)] ≤
t t τ =0 0 t t τ =0 0
2 1 00 1 t 0
∗0 ∗
− Wt + 0 f (τ) dτ − f 0 |f − f (t)| =
t t t τ =0√
2 2√
− Wt + Wt |f ∗ − f (t)| .
t t
Existe t0 (ε) tal que |f ∗ − f (t)| ≤ ε para todo t ≥ t0 (ε), lo que implica

2 2√ 2√ √ 1
Ẇt ≤ − Wt + Wt ε = − Wt Wt − √ ε
t t t 2

dWt 2
≤ − dt
√ √ 1 t
Wt Wt − √ ε
2

20
Aplicando fracciones parciales
1 a b
=√ + =
√ √ 1 Wt √ 1
Wt Wt − √ ε Wt − √ ε
2 2
√ 1 √ √ a
a Wt − √ ε + b Wt (a + b) Wt − √ ε
2 2
=
√ √ 1 √ √ 1
Wt Wt − √ ε Wt Wt − √ ε
2 2
√ √
a 2 2
a + b = 0, − √ ε = 1 ⇐⇒ a = − , b=
2 ε ε

y en vista de las relaciones


b b
 x=b

dx √ dy √
√ = 2 x =2  x − c + c dy
x−c y y
a a x=a
√ y
√ √ b−c
=2 b − a + c ln √
a−c

√ 1
y := x − c, dy = √ dx
2 x
se tiene
 

2
 1 1  2
−√  dWt ≤ − dt
ε  √ 1 Wt  t
Wt − √ ε
2
t t
dWτ dW ε t
+ √ τ ≤ − √ ln
√ 1 Wτ 2 t0 (ε)
t=t0 (ε) Wτ − √ ε t=t0 (ε)
2
1 √
t− √ ε
√ . 1 2 √ . ε t
2 t − t0 (ε) + √ ε ln . + 2 Wt − Wt0 (ε) ≤ − √ ln
2 1 2 t0 (ε)
t0 (ε) − √ ε
2
  √ 
1
t − √ ε  2 √ √
√ .  t  2 .
2 Wt − Wt0 (ε) ≤ − ln  
 t0 (ε)  .
 − 2 t − t0 (ε)
1  ε
t0 (ε) − √ ε
2

21
Tomando en cuanta que para t > t0 (ε)
  √ 
1
 t  t − √ ε 
2
ln  
 t0 (ε)  .
 > 0
1 
t0 (ε) − √ ε
2
se obtiene
√ .
  2 Wt − W  t0 (ε) ≤
√ 1
 t  t − √ ε  √ √ .
− ln   2  − 2 2 t − t0 (ε) ≤
 t0 (ε)  . 1   ε
t0 (ε) − √ ε
2
2√ √ .
− 2 t − t0 (ε)
ε
y √
. 1 2 √ .
Wt ≤ Wt0 (ε) − t − t0 (ε) . (25)
ε
Teniendo en cuenta que t → ∞ podemos concluir que el lado derecho en (25) se
convierte en cero en un tiempo finito, obteniendo (24) teniendo en cuenta que
ε es arbitrariamente pequeña.

3.3.4 Remark on Vanishing Viscosity Solution


Remark 3 En general, no existe una solución continuamente diferenciable para
la ecuación HJB.

Considere la siguiente aproximación de la ecuación HJB

∂ ∂
ε∆V (t, x) − V (t, x) + sup H − V (t, x) , x, u, t = 0
∂t u∈U ∂x
V (T, x) = h0 (x) , 0 < ε → 0 (26)
n
- ∂2
∆V (t, x) := V (t, x) - Operatodor de Laplace.
i=1 ∂xi ∂xi

también conocida como la ecuación de viscosidad, en la cual se agrega


un término muy pequeño ε, multiplicado por operador de Laplace. Está nueva
ecuación depende de segunda derivada. Por lo tanto, si ε = 0, entonces la
segunda derivada existe aunque cuando ésta sea discontinua (o continua), tal
que garatiza que la primera derivada existe y es continua.
Si lo anterior sucede, Vε t, x∗ε,t es la solución de la ecuación de viscosiad
(26), que es la aproximación de nuestro problema original en la ec. HJB.

22
Definition 6 Define la solución de(26) como Vε t, x∗ε,t . Si satisface el límite
L2
l.i.m.Vε (t, x∗ε ) = Ṽ (t, x∗t )
ε→0
∞ 2 32
l.i.m.Vε (t, x∗ε ) =: lim Vε t, x∗ε,t − Ṽ (t, x∗t ) dt = 0,
ε→0 ε→0 t=0

l.i.m.Vε significa mean square limite, en el sentido de mínimos cuadrados.


ε→0
Tal que, la integral en todo el intervalo [0, T ] diferencia en cuadrado cuando
ε → 0, es igual a 0.
Entonces Ṽ (t, x∗t ) se conoce como una solución de viscosidad evanescente
de la ecuación HJB original.

23

También podría gustarte