Download - Controle Otimo´ - Aula 12 Princ´ıpio do M´ınimo de …Exemplo: Problema da Brachistochrona Controle Otimo´ - Aula 12 Princ´ıpio do M´ınimo de Pontryagin - Extensoes˜ e Exemplos

Controle Otimo - Aula 12Princıpio do Mınimo de Pontryagin

- Extensoes e Exemplos

Adriano A. G. Siqueira e Marco H. Terra

Departamento de Engenharia Eletrica

Universidade de Sao Paulo - Sao Carlos

Controle Otimo - Aula 12 Princıpio do Mınimo de Pontryagin - Extensoes e Exemplos – p.1/24

O problema de controle ótimo

Considere um sistema contínuo

x (t) = f (x (t) , u (t)) , 0 ≤ t ≤ T

com x (0) = x0 dado,

u (t) ∈ U, 0 ≤ t ≤ T

e um funcional custo associado da forma

h (x (T )) +∫ T

0g (x (t) , u (t)) dt

O problema de controle ótimo consiste em determinar uma lei decontrole (denominada lei de controle ótima) {u∗ (t) : t ∈ [0, T ]} queaplicada ao sistema, minimize o funcional custo.


Princípio do Mínimo de Pontryagin

Princípio do Mínimo de Pontryagin: Seja u∗(t) o controle ótimo ex∗(t) a correspondente trajetória de estados ótima, ou seja,

x∗(t) = f(x∗(t), u∗(t))

x∗(0) = x(0): dado

Seja p(t) a solução da Equação Adjunta

p(t) = −∇xH(x∗(t), u∗(t), p(t))

com condição final p(T ) = ∇h (x∗(T )) e

H(x, u, p) = g(x, u) + pTf(x, u)


Princípio do Mínimo de Pontryagin

Princípio do Mínimo de Pontryagin: Então, para todo t ∈ [0, T ]

u∗ (t) = argminu∈UH(x∗(t), u, p(t))

Além disso, existe uma constante C tal que

H(x∗(t), u∗(t), p(t)) = C

para todo t ∈ [0, T ]


Extensões do Princípio do Mínimode Pontryagin

Estado final fixo: Suponha que o estado final, x(T ), é dado.

A condição final J∗(T, x) = h(x) não é válida. Temos:

J∗(T, x) =

{

0 se x = x(T )

∞ se x 6= x(T )

Então p(T ) = ∇h (x∗(T )) não é válida.

Condição limite: x(T )

Exemplo: Problema da Brachistochrona



Estado inicial livre: Suponha que o estado inicial, x(0), é sujeito àotimização. Temos:

J∗(0, x∗(0)) ≤ J∗(0, x)

ou seja

∇xJ∗(0, x∗(0)) = 0

Sendo p(t) = ∇xJ∗(t, x∗(t)), então:

p(0) = 0



Tempo final livre: Suponha que o tempo final, T , é sujeito àotimização.

Seja T ∗ o tempo final ótimo.

Se T ∗, x(0) são dados e o tempo inicial é otimizado. Então tempoinicial ótimo é t = 0.

∇tJ∗(t, x∗(t))|t=0 = 0

Eq. de Hamilton-Jacobi-Bellman

∇tJ∗(t, x∗(t)) = −H(x∗(t), u∗(t), p(t))



Tempo final livre: Então:

H(x∗(0), u∗(0), p(0)) = 0

Como o Hamiltoniano deve ser constante ao longo da trajetória

H(x∗(t), u∗(t), p(t)) = 0

para todo t ∈ [0, T ∗]

Exemplo 4.3 (página 117)



Exercício 3.3 (página 124): Sistema de reservatórios com equações:

x1(t) = −x1(t) + u(t)

x2(t) = −x1(t)

com 0 ≤ u(t) ≤ 1 para todo t, x1(0) = 0 e x2(0) = 0.

Objetivo: Maximizar x2(1) sujeito à restrição x1(1) = 0.5.


Introdução aos Problemas deHorizonte Infinito

Capítulo 7



Números de estágios é infinito

Sistema estacionário: equação do sistema, custo por estágio ⇒ nãomudam de um estágio para outro

Políticas estacionárias: regra para escolha do controle não muda de umestágio para outro



Custo total sobre um número infinito de estágios

Jπ(x0) = limN→∞{Ewk{

N−1∑

k=0

αkgk (xk, µk(xk), wk)}}

sendo

• 0 < α ≤ 1: fator de desconto

• π = {µ0, µ1, ...}: política de controle

Problema: minimizar Jπ(x0) ⇒ torná-lo finito



Quatro classes principais de problemas de horizonte infinito:

• Caminho mais curto estocástico:

• α = 1

• Há um estado final com custo zero• Horizonte finito mas aleatório e pode ser afetado pelo controle

sendo utilizado

• Problemas com desconto com custo por estágio limitado• α < 1

• |gk (xk, µk(xk), wk) | limitado por M

• Jπ(x0): soma infinita de números limitados por umaprogressão geométrica decrescente {αkM}



• Problemas com desconto e sem desconto com custo por estágioilimitado

• Análise sofisticada: possibilidade de custo infinito paraalgumas políticas

• Volume 2

• Problemas com custo por estágio médio• Jπ(x0) = ∞ para toda π e todo x0

• Para alguns problemas deste tipo

limN→∞

1

N{Ewk

{

N−1∑

k=0

gk (xk, µk(xk), wk)}}

o custo por estágio médio é finito


Resultados Preliminares

Aproximação pelo problema correspondente com N estágios

Seja α = 1, JN(x) custo ótimo para N estágios com condição inicial x

Jk+1(x) = minu∈UEw{g(x, u, w) + Jk(f(x, u, w))}, k = 0, 1, ...

J0(x) = 0

1) O custo ótimo com horizonte finito, J ∗(x), é o limite do custo ótimodo problema de N estágios quando N → ∞:

J∗(x) = limN→∞JN (x)


Resultados Preliminares

2) A equação limite deve ser satisfeita para todo x:

J∗(x) = minu∈UEw{g(x, u, w) + J∗(f(x, u, w))}, k = 0, 1, ...

Sistema de equações (uma por estado)

Solução: custos de todos os estados

Equação de Bellman

3) Se µ(x) satisfaz o mínimo na Equação de Bellman para cada x ⇒{µ, µ, ...} é uma política ótima


Formulação do Problema de CustoTotal

Estando no estado i e usando u, tem-se a probabilidade de transiçãopij(u) para o estado j

pij(u) = P (xk+1 = j|xk = i, uk = u)

sendo i um elemento do epaço de estados finito e u ∈ U(i)

Sendo g(i, u, j) o custo de utilizar u no estado i para ir para o estado j,o custo esperado por estágio é:

g(i, u) =∑

j pij(u)g(i, u, j)


Formulação do Problema de CustoTotal

Custo total esperado associado ao estado inicial i e a uma políticaπ = {µ0, µ1, ...}:

Jπ(i) = limN→∞{E{

N−1∑

k=0

αkgk (xk, µk(xk)) |x0 = i}}

J∗(i): custo ótimo a partir do estado i, mínimo de Jπ(i) sobre todas aspolíticas admissíveis π

Política estacionária, π = {µ, µ, ...} ou µ, é ótima se Jµ(i) = J∗(i)para todo i


Problema do Caminho mais CurtoEstocástico

Assume-se:

• α = 1

• Há um estado final, t, com custo zero (uma vez o sistema alcançaeste estado, ele permanece nele com nenhum custo futuro):

ptt(u) = 1 e g(t, u) = 0 para todo u ∈ U(t)

Suposição 2.1 (pág. 296): existe um inteiro m tal que a probabilidadedo estado final ser alcançado após m estágios é positiva, ou seja,

ρπ = maxi=1,...,nP (xm 6= t|x0 = i, π) < 1



Seja: ρ = maxπρπ

Temos:

P (xkm 6= t|x0 = i, π) ≤ ρk, i = 1, ..., n

A probablidade de não alcançar o estado final após km estágiosdecresce para menos que ρk, para qualquer estado inicial i e política π

Portanto, o limite do custo total esperado existe e é finito



Proposição 2.1 (Pág. 297): Considerando a suposição 2.1, as seguintesafirmações são satisfeitas:

1) Dadas quaiquer condições iniciais J0(1),...,J0(n), a sequência Jk(i)gerada pela iteração:

Jk+1(i) = minu∈U(i){g(i, u) +∑n

j=1 pij(u)Jk(j)}, i = 1, ..., n

converge para o custo ótimo J∗(i) para cada i.

2) Os custos ótimos J∗(1), ..., J∗(n) são as soluções únicas daEquação de Bellman:

J∗(i) = minu∈U(i){g(i, u) +∑n

j=1 pij(u)J∗(j)}, i = 1, ..., n



3) Para qualquer política estacionária µ, os custos Jµ(1), ..., Jµ(n) sãoas soluções únicas da equação:

Jµ(i) = g(i, µ(i)) +∑n

j=1 pij(µ(i))Jµ(j), i = 1, ..., n

Além disso, dadas quaiquer condições iniciais J0(1),...,J0(n), asequência Jk(i) gerada pela iteração:

Jk+1(i) = g(i, µ(i)) +∑n

j=1 pij(µ(i))Jk(j), i = 1, ..., n

converge para o custo Jµ(i) para cada i.

4) Uma política estacionária µ é ótima se e somente se para cadaestado i, µ(i) alcança o mínimo da Equação de Bellman



Iteração do valor:

Jk+1(i) = minu∈U(i){g(i, u) +∑n

j=1 pij(u)Jk(j)}, i = 1, ..., n

Iteração da política: Começa com µ0 e são geradas novas políticasµ1, µ2, ...

Dada a política µk, faz-se a Avaliação da Política: calcular Jµk(i),solução do sistema de equações

Jµk(i) = g(i, µk(i)) +∑n

j=1 pij(µk(i))Jµk(j), i = 1, ..., n



Calcula-se uma nova política uk+1:

uk+1(i) = arg minu∈U(i)[g(i, u) +∑n

j=1 pij(u)Jµk(j)], i = 1, ..., n

Repetição do processo até

Jµk+1(i) = Jµk(i)

para todo i.