带约束的随机递归最优控制问题的全局最大值原理
发布时间:2020-08-12 17:19
【摘要】:Pontryagiin及其团队[1]在二十世纪五十年代首次提出了确定性最优控制系统的最大值原理,但因为随机积分的存在该原理不能平行推广到随机最优控制系统中,Peng[5]通过对变分进行二阶泰勒展开得到经典的随机最大值原理。Duffie和Epstein[11]引入了连续时间下递归效用的概念,之后,有很多学者研究了随机递归最优控制系统的局部最大值原理。然而,全局最大值原理却未得到解决,Peng[21]提出如下公开问题:“当函数f非线性依赖于z时的全局最大值原理是公开问题”。该公开问题的主要难点是状态变量的二阶变分方程和二阶伴随方程未知。最终,Hu[26]通过引入两个新的伴随方程克服了这两个难点,并得到随机递归最优控制系统的全局最大值原理。本文主要研究带约束的随机递归最优控制系统的全局最大值原理,将Yong和Zhou[27]中的约束条件拓展到带递归效用的情况就是本文所要求的约束条件。本文主要分为两个部分:第一部分,研究一维情况的带约束的随机递归最优控制系统的全局最大值原理。考虑由随机微分方程和倒向随机微分方程y(t)= Φ(x(T))+ f(s,x(s),y(s),z(s),u(s))ds-z(s)dW(s),共同描述的随机递归最优控制系统,其中,定义代价泛函为J(u·))= y(0).同时,要求状态过程满足如下状态约束:Eh(x(T),y(0))+ E ∫0T g(t,x(t),y(t),z(t),u(t))dt ∈ T,(?)其中,h和g均为给定函数。该问题可以描述为在可行控制集u[0,T]上最小化上述代价泛函。即存在一个最优控制u(·)使得下式成立:本文的研究目标是获得最优控制u(·)满足的必要条件。在推导最大值原理的过程中,首先定义惩罚代价泛函,然后利用针状变分、Ekeland变分原理和泰勒展开,之后引入两个新的倒向随机微分方程和一个新的随机微分方程,其适应解分别为(p0(.),q0(.)),(P0(.),Q0(.))和γ(·),随后利用Ito公式,并介绍一个哈密尔顿函数来得到变分不等式,最后通过取极限得到一维情况的带约束的随机递归最大值原理和横截条件。本文的创新就在于引入这三个新方程,使得上述约束条件下的随机递归最大值原理得以解决。另外,在h和g同时等于零,且Γ为全集Rl的情况下,也就是说,并没有受到状态约束的束缚,经过推导可以得到本文所得到的最大值原理与Hu[26]中的无约束情况的最大值原理相同。第二部分,研究多维情况的带约束的随机递归最优控制系统的全局最大值原理。首先,将状态过程(x(.),y(.),z(.))及其满足的微分方程推广到高维情况,代价泛函会变为y的复合函数形式,即J(u(.))=H(y(0)),相应地,约束条件会变为如下形式:Eh(x(T),H(y(0)))+ E ∫0T g(t,x(t),y(t),z(t),u(t))dt ∈T.与一维情况的定理推导过程大致相同,不同的是泰勒展开时需考虑y的复合导函数Hy(y(0)),所以一维情况中新引入的三个微分方程在推广到高维情况后也会做出相应的一些变化。同时,也需要引入高维的哈密尔顿函数来得到多维情况的带约束的随机递归最优控制系统的全局最大值原理。当各个维度都为一时,即多维情况回归到一维情况,本文得到的两个定理将有相同的结论。同样,本文得到的多维情况的带约束的随机递归最大值原理经过推导也可以缩减为Hu[26]中多维情况的无约束最大值原理。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F224
本文编号:2790809
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F224
【参考文献】
相关期刊论文 前2条
1 ;The Maximum Principle for Fully Coupled Forward-backward Stochastic Control System[J];自动化学报;2006年02期
2 ;MAXIMUM PRINCIPLE FOR OPTIMAL CONTROLPROBLEM OF FULLY COUPLEDFORWARD-BACKWARD STOCHASTIC SYSTEMS[J];Systems Science and Mathematical Sciences;1998年03期
本文编号:2790809
本文链接:https://www.wllwen.com/kejilunwen/yysx/2790809.html