带平均场的线性二次正倒向随机对策问题
发布时间:2018-02-02 19:41
本文关键词: 线性二次 平均场对策 大人口系统 正倒向随机微分方程 主-从问题 部分信息 随机最大值原理 脉冲控制 出处:《山东大学》2016年博士论文 论文类型:学位论文
【摘要】:博弈论是一项关于战略决策的研究,一般来说,它是来研究聪明理性的决策者之间合作和冲突数学模型的,主要应用于经济学、政治学、心理学、逻辑学、计算机科学、生物学等。这个课题首先提出了零和博弈,指的是一个人的收益恰好等于其他参与者(们)的净损失。然而今天,博弈论适用于大范围的行为关系,并已经发展成为决策科学逻辑性方面的一个涵盖性术语。在很多社会、经济和工程模型中,涉及到的个人或参与者有相互冲突的目标,因此更适合考虑基于个人收益或成本的优化问题。在此情形下,非合作博弈理论研究方法一定程度上基于经济学、社会科学等的相关工作产生了。在现存的文献中,随机动态对策和合作问题的研究可以追溯到20世纪六十年代(请参阅[1,2,3,4])。在最优控制背景下弱互联系统在[5]中进行了研究,并且在两人非合作非线性动态对策设定下Nash均衡在[6]中进行了分析。近年来,受控的随机大人口(也称作多主体)系统由于其广泛的出现在政治、经济、工程等领域而变得非常重要。后来,这类系统的动态优化或者控制吸引了研究群体一致的强烈的关注。受控的大人口系统最大的特点在于考虑可忽略主体的存在性,他们单个来看是可以被忽略的,但是他们的集体行为将会给所有主体施加某种显著的影响。这种特点能被个人动态系统和(或)代价泛函中的整个人群的状态均值所表示的弱耦合结构表现出来。在这种方式下,所有主体中微观模式下的个人行为可以和宏观模式下的集体行为联系起来。这种动态系统和泛函中的弱耦合用来模拟竞争的决策者之间的互动影响。特别的,这种动态耦合表明了环境对个人决策的影响,并且这种潜在的模型采用的是个人控制的弱耦合扩散形式。值得注意的是由于大人口系统中高度复杂的耦合结构,考虑所有主体的精确状态而得到的经典策略证明是无效、不可行的。作为一种选择,研究相关的只考虑自己个人状态和某个外生变量的状态变的更容易驾驭和有效。对于大人口的带平均场结构的随机动态对策问题,Nash确定性等价理论最初是由Huang、Caines和Malhame的一系列文章发展起来的。大规模的线性控制系统的优化问题在[7]中呈现出来,其中许多的主体通过各自的状态相互耦合,而代价泛函是“个人到集体”的形式。然后一个明确的非线性McKean-Vlasov马尔科夫过程模型的一般性表达在[8,9,10]中有了发展。本论文主要专注于大人口系统在线性二次情形下的研究,其中状态方程对状态是线性的并带有非齐次项,代价泛函是二次的。回顾起来,线性系统和其相关的线性二次控制已经有了广泛的研究,这样的控制问题称为线性二次最优控制问题。关于一些经典的确定性线性二次问题的结果,读者可以参阅[11]。对于随机情形,这些问题可参阅[12,13]。系统的介绍随机线性二次最优控制问题可见[14]的相关段落和其中的文献。其他相关的文献包括[15,16,17]等。由于线性二次非常好的结构,所以存在着丰富的线性二次描述的大人口问题的相关文献。大人口系统中的线性二次对策问题和ε-Nash均衡性质在[18]中有了研究和证明,其中每个主体的动态系统是不一致的。在[19]中,作者求解Hamilton-Jacobi-Bellman 和 Kolmogorov-Fokker-Plank方程,并且发现了线性反馈形式显式的Nash均衡点。[20]旨在研究一类含有N个决策者的线性二次控制问题,其中基本目标是最小化一个社会成本作为N个独立的带有平均场结构的泛函之和。后来,[21]提供了一类线性二次框架下一般的平均场对策问题的综合性研究。关于线性二次大人口问题更详尽的结果,请参阅[22,23,24]等。作为博弈论一个新的分支,平均场博弈起因于多个领域,例如,粒子物理学、经济学、生物学等。在粒子物理学的很多情形下,通过引入一个或多个“平均场”来充当描绘粒子间相互作用的媒介,这样构建的逼近方式是非常优越的。在这类模型中,通过假设每个粒子都是无穷小的来描绘每个粒子对于构建平均场的贡献和平均场对于每个粒子的影响,也就是,通过令粒子的数目N→+∞,采用一类极限过程。在博弈论中,站在数学的立场上是涉及了当N趋于无穷的时候,研究一大类N人对策问题。通常的,N人微分对策证明是不易处理的。幸运的是,事情可以被简化,至少当参与者数量增加,就参与者而言,这种对策问题是对称的。实际上,个人与个人之间的复杂策略将无法被参与者实施,因为当参与者人数增多的时候,每个人会渐渐的在别人的视野中消失。在过去数十年中,研究平均场博弈及其应用的相关文献越来越多。对此类对策问题,密切相关却独立发展的研究,请参阅[25,26,27]。基于这些结果,这条研究路线又吸引了很多注意。一些近期的文献包括[28,29,30,31],其中涉及了很多平均场博弈论的研究。关于平均场博弈的一些介绍和例子由[28]给出。[29]主要给出了一类带平均场相互作用的随机微分对策问题的完整的概率分析。[30]主要讨论和比较了两类当参与者人数趋于无穷时随机微分对策的近似方法。另外,[31]处理了一个银行间的借入和借出模型,并分析了系统风险。平均场型控制近年来也有了广泛的研究。[32]得到了平均场倒向随机微分方程以及相关的平均场随机微分方程作为一个高维正倒向随机微分方程系统的极限。后来,在[33]中作者深入调查了带有一般系数的此类平均场倒向随机微分方程并提出了相关的偏微分方程。基于这些研究,[34]和[35]独立的研究了平均场型最优控制问题,其中控制域是凸的,这也可被[36]中的结果所涵盖。此外,[37]提供了平均场型的完全耦合的正倒向随机微分方程的解的存在性结果。更多的关于平均场型的对策和控制的文献,请参阅[38,39,40,41,42,43,44,45,46,47,48,49,50]等。值得指出的是,平均场型对策和平均场型控制之间有很多区别。一般来说,像[29,30,31]所引出的那样,本质上平均场型对策和平均场型控制在所采用的方法和得到的均衡上是不同的。准确的说,平均场型对策的方法是“不同步”—型。它是首先固定或冻结状态平均值xt(N)(线性情形)或者经验测度地t(非线性情形)来把初始问题转化成为标准的但是以固定项作为参数的问题。这个固定项在这一步仍然是未确定的。下一步,这个受参数影响的标准问题可以被求解并且得到最优状态。这样的控制称为分散化控制。然后,这个固定的状态均值或是经验测度可以进一步由不动点分析和最优系统相关的连续性条件确定出来。在这个意义下,状态均值(或是经验测度)和未定的平均场对策将会“不同步”变化。与之相比,在平均场型控制问题中,状态均值或者经验测度将不再被事先固定或冻结。实际上,它们会随着未定的控制变化而变化。在这种方式下,状态均值项和状态本身被视为“同步”-型。值得注意的是在上面提到的文献中,所有的参与者之间相比是微不足道的,也就是说他们不会以单个的方式影响整个群体。相对的,他们将会以群体状态平均值的统一模式施加影响。在此情形下,所有参与者可以视为同事。一个实际的例子是生产同类产品的市场价格信息。每个公司产量如此之小使得单个公司的产量不能影响兄弟公司的行为。然而,所有公司的平均产量将会决定此产品的市场价格。所有的小公司都采取这个价格模式,所以他们进一步的相互作用并且通过价格信息机制耦合在一起。上面的讨论是基于假设所有的人平等的参与到市场价格信息中来。然而,在现实中我们知道参与者地位和角色的不同在现实状况中的诠释有显著不同。例如,小的单个个人的决策总是受某些“领导”群体或者“主导”机构的影响。在我们的价格信息例子中,这样的“领导”群体可以被理解为一些垄断公司,他们有着相当大的产量因此会对价格施加更多显著的影响。至于那些“主导”机构,可以被视为当地政府,因为它的产业政策将会很大程度的影响所有公司的生产行为。相反的,小的公司也会通过市场价格影响政府的决策。个重要的影响当地政府状态的因素—生产的税收,将会依赖于形成的市场价格。上面的讨论暗示了所谓的主-从参与者模型。更确切的,让我们通过下面的石油开采例子指出来。在原油开采过程中,单个石油开采公司总是希望开采更多的石油,从而获得更多的利润。这此状态下,他们的开采计划总是倾向于尽量少的考虑宏观因素,比如石油资源有限、可能出现的环境代价和开采过程中的长期受益。另一方面,这些因素更多的是相关的监督部门或当地政府所考虑的。不像单个的石油公司,他们更关心行业的可持续发展和石油部门的综合效益。因此,他们将作为主要参与者实施一些宏观调控政策。所有小公司(作为从属参与者)当制定生产计划时应该遵循这些政策。所以,所有的单个小生产公司组成了从属参与者部分,并且依赖他们的集体行为(状态平均值)来进一步影响当地政府(主要参与者)。进而主从大人口系统和相关的平均场对策被广泛的研究。回顾之前的工作,[51]通过分析一个无穷集合,并且所有从属参与者可分为K类讨论了主从参与者大人口系统问题。后来,[52]考虑了主从关系模型的线性二次问题,这里直接把平均场项z作为一个随机过程且系数是随机的。再后来,[53]研究了非线性随机动态系统大人口对策问题,其中有一个主要参与者和N个从属参与者,得到ε.N-NaSh均衡性质,且有εN=O(1/(?)).此外,[54]导出了一个对策问题,其中收益/消费由一个受控的倒向随机微分方程定义,且假设系数关于控制参量满足严格的凹-凸性。在大多数控制问题中,我们都假设信息是可以被完全观测到的。然后,在现实中却未必总是合理的。由于参与者在社会中角色、地位、方法等的不同,所观测的内容也不尽相同。进而由于有限的数据,隐藏的过程或是噪声观测等,很多控制问题更适合用部分信息框架来描述。部分信息下的随机控制问题在[55]中有了大量的回顾。也有其他的关于部分可观测的随机控制系统的文献,先前的工作请参阅[56,57,58,59,60,61,62,63],近期的工作请看[64,65,66,67,68,69,70,71,72,73]。对于部分可观测随机微分对策,可参阅[74,75,76]和其中的文献。值得注意的是,一类带噪声观测的线性二次平均场对策问题也在[77]中进行了研究,问题定义在无穷时间区间,故而代数Riccati方程由此引入。另外,在[77]中,由于没有公共噪声,所以极限的状态均值是确定性的函数,这跟本论文中相关问题的处理是不一样的。非常重要的一点是在上述所有的大人口系统问题相关工作中,所有参与者的状态都描述为初始条件给定的(正向)随机微分方程。进一步的,在此问题中,参与者们的目标是最小化他们的目标泛函,当然其中涉及了终端状态。随着倒向随机微分方程广泛的研究和应用,我们很自然的考虑大人口问题在此框架下的动态优化问题。实际上,倒向大人口系统的动态优化问题启发于很多情形。例如,在动态经济模型中,参与者有某种递归效用或是非线性期望,或者一些生产计划需要有些追踪的终端目标却受平均产量导致的价格因素影响。另一个实例源自于风险管理问题,这时考虑的是基于整个部门所有同事平均表现的相关或相对标准。这就像一个给定的养老基金通过设定平均表现(比如,平均套期保值成本,起存金额,盈余)作为一个基准来衡量自身的表现。此外,受[78]启发,带有终端约束的受控的正向大人口系统,可以被重新描述为某个倒向大人口系统。不同于随机微分方程,倒向随机微分方程的的终端而不是初始条件事先被明确。作为一个重要的特点,倒向随机微分方程的解是个适应对(yt,Zt),其中解的第二部分磊很自然的由鞅表示定理呈现出来,且使得纨满足适应性要求。关于倒向随机微分方程,有着非常丰富的理论和应用结果。线性倒向随机微分方程首先是在[79]中考虑的。1990年,Pardoux-Pen g[80]首先引入了非线性倒向随机微分方程,建立了倒向方程在标准Lipschitz条件下的解的存在唯一性定理。基于这一开创性工作,倒向随机微分方程理论得以在各个领域迅速发展开来,例如,数理金融、偏微分方程、随机控制和微分对策,泛函分析等。独立的,[81]提出了随机微分递归效用,这是标准效用的广义化,其中瞬时的效用不仅依赖于瞬时的消费率,而且依赖于将来的效用。像[82]中提到的那样,效用过程可以被视为一个特殊倒向随机微分方程的解。[82]也从倒向方程的角度给出了递归效用的表达和他们的性质。一个倒向随机微分方程和一个随机微分方程耦合在一起,构成了一个正倒向随机微分方程。进而,在一些实际背景下,正倒向大人口动态优化问题也自然出现了。一个经典的情况是带终端约束的大人口系统(例如,[83])。在这种情况下,标准的正向随机控制问题可以很好的由某个正倒向控制问题逼近。在过去的几十年中,正倒向随机微分方程已有很多研究成果。关于解的存在唯一性,有一些著名的结果。压缩映射方法首先在[84]中应用,后来在[85]中详细说明。当时间区间T充分小时,这个方法是非常好的。另一个方法称为“四步框架”([86]),这是第一个移除对时间区间限制的马尔科夫正倒向随机微分方程的解决办法。然后是连续性方法,首先由[87]和[88]提出,后来经[89]和[90]发展,这类方法可以处理任意时间区间的非马氏正倒向方程。关于这些方法的详尽内容,请参阅[91]这本书。近来,在[92]中,作者找到了一个统一的框架可以综合所有存在的方法,并克服了一些非马氏正倒向方程中长期未解决的困难。关于正倒向随机微分方程更多的理论和应用结果,请参阅以下相关文献[93,94,95,96,97,98,99,100,101,102,103,104,105,106]。根据状态相互依赖的特点,正倒向随机微分方程可以分为两类:部分耦合和完全耦合正倒向方程。前者指的是倒向状态yt(或正向状态xt)依赖于正向状态xt(或倒向状态yt),但是xt(yt)并不依赖yt(xt),这更能来表达递归效用和非线性期望(请参阅,例如[83,68,41])。实际上,正向状态xt通常表示某些未定资产的动态系统,倒向状态yt代表了决策者的非线性期望或递归效用。而递归效用依赖于未定资产是很自然和合理的。相反的,未定权益是不能被采用的递归效用所影响的。不仅如此,在数学上,描述和研究完全耦合的正倒向随机微分方程(正倒向状态互相依赖)有很高的理论价值。与以上正倒向随机微分方程驱动的对策问题不同的是,一些受其他机制影响的随机最优控制问题,也在实践中有着非常广泛的应用,比如脉冲控制、时间延迟、体制切换系统等。而考察这样最优控制的随机最大值原理,在理论研究和实际应用中有着极为重要的作用。最大值原理— 最优控制的必要条件,首先由Pontryagin等人的团队[107]在十世纪五六十年代提出和研究的。Bismut [79]引入了线性倒向随机微分方程作为伴随方程,这在随机控制理论的发展中起到了里程碑的作用。随着Pardoux-Peng [80]非线性倒向随机微分方程理论的建立,一般的随机最大值原理由彭实戈教授在[108]中通过引入二阶伴随方程得到。随后,彭教授[109]首先研究了控制域为凸集时正倒向控制系统的随机最大值原理。由于倒向随机微分方程和正倒向随机微分方程在数理金融、经济学等广泛的应用,我们很自然的考虑正倒向随机微分方程的最优控制问题。在这方面,有丰富的结果可供查阅,比如[94,110,111,68,112]及其中的文献。不久前,吴臻教授[106]建立了一般的正倒向随机系统的最大值原理,其中控制域是非凸的,且扩散项系数显式的含有控制变量。这对一般的正倒向随机系统最大值原理的发展做了极大的推动。随着随机控制理论的蓬勃发展,随机脉冲控制问题也因为其广泛的应用而获得了大量的研究,主要体现在带交易费用的证券投资组合优化问题([113,114])和不同币种间交易率最优策略问题([115,116])。Korn [117]也考察了脉冲控制在数理金融方面的很多应用。关于脉冲控制的综合研究,可参阅[118]。Wu and Zhang[103]首先研究了带脉冲控制的正倒向随机系统最大值原理,其中假设正则控制域是凸的,且得到了必要和充分条件。后来,在[119]中作者也考虑了正倒向系统含脉冲控制问题,这里正则控制域未必是凸集,而扩散项系数不含控制。近年来,体制切换模型在金融和随机控制中的应用获得了持续研究。相对于基于扩散过程的传统系统来说,经验看来,体制切换模型显得更有意义。特别的,它可以表征为时间连续、状态有限的马尔科夫链,其中每个状态表示一个系统的体制或是一个经济指标的水平。基于切换模型,在期权定价、投资组合管理、风险管理等领域开展了很多工作。在[120]中,Crepey主要研究金融中的定价方程。Crepey and Matoussi[121]研究了带马尔科夫链的反射倒向随机微分方程。对于带体制切换模型的控制问题,Donnelly在[122]中调查了充分最大值原理。利用带马尔科夫链的倒向随机微分方程的结果[120,121],Tao and W u [123]导出了正倒向体制切换模型的最大值原理。此外,他们也在[124]中研究了体制切换倒向方程的弱收敛。除此之外,延迟的随机系统也有很多实际背景,例如经济、金融、管理、工程、决策学等(见Arriojas等[125],Mohammed [126,127])。主要原因是在这些领域的很多现象中,依赖过去是非常普遍的,也就是说他们在t时刻的行为不仅依赖于t时刻情形,也依赖于他们的历史。这样的模型可被描述为随机微分延迟方程。然而,延迟系统由于其延迟效应而变得难以处理,不仅是在处理无穷维问题时,而且在于处理轨线延迟部分缺乏It6公式。为了克服这些困难,可以考虑很多特别的系统分类,比如(?)ksendal and Sulem [128]。受以上研究的启发,论文主要考虑两类带脉冲控制的正倒向随机最优控制问题的最大值原理,一类是带脉冲的正倒向体制切换系统,另一类是带脉冲的正倒向延迟系统。在第一类中,系统由正倒向随机微分方程驱动,且所有系数都含有马尔科夫链。此情况相对于[123]和[103,119]显得更为复杂。在第二类中,系统由正倒向随机微分延迟方程描述,控制变量包括正则控制和脉冲控制,且都有时间延迟。我们知道随机微分方程和倒向随机微分方程之间有很好的对偶关系。Peng and Yang [129]引入一类新的倒向随机微分方程称为超前倒向随机微分方程,且在随机微分延迟方程和超前倒向随机微分方程之间建立了对偶关系。利用超前倒向方程的理论和对偶方法,Chen and Wu [130]首先得到了状态和控制都含延迟的控制系统最大值原理。后来,Yu[131]研究了含脉冲控制的延迟控制系统最大值原理,其中动态系统由随机延迟系统驱动,且正则控制是凸的。更多的关于延迟系统的文献,请参阅[132,133,134]和其中的参考文献。论文具体组织如下:正倒向框架下大人口动态优化问题在第一章中进行了阐述,并且研究了部分耦合的正倒向随机微分方程驱动的带平均场的线性二次对策问题。对单个参与者,我们得到了辅助跟踪系统的最优控制。由于此Hamiltonian系统的二维特性,解耦过程中需要四个Riccati方程和两个常微分方程。进一步的,分散化策略可以通过连续性条件和逼近结构得到。另外,基于一些正倒向微分方程的估计,我们也可证明初始问题的ε-Nash均衡性质。我们在第二章里进一步考虑了倒向的大人口线性二次对策问题,这里每个人的状态服从倒向随机微分方程。由于倒向方程的存在,使得此问题与之前存在的线性二次平均场对策问题很不一样,因为存在的文献中参与者的状态服从(正向)随机微分方程。这里每个参与者的动态系统通过状态均值弱耦合在一起,并且观测的信息是完全的。我们得到了极限过程的显式形式,并且研究了初始问题的ε-Nash均衡性质。主-从框架下大人口系统在第三章中有所研究,其中主参与者的动态系统由某个终端给定的倒向随机微分方程描述,而从属参与者的系统由初始条件给定的随机微分方程驱动。在这种情况下,主参与者的目标变为最小化依赖初始状态的代价泛函,而从属参与者试图最小化依赖于终端状态的代价泛函。不仅如此,主参与者也考虑了与从属参与者的相对表现。相关的带平均场的线性二次对策问题获得了讨论且得到了分散化策略。这时一个与主参与者状态相关的随机过程由此引入作为从属参与者状态均值的逼近。进一步得到一个辅助的平均场随机微分方程和一个3×2正倒向随机微分方程系统。这里,3×2正倒向系统是由三个正向和三个倒向方程组合而成。在[88]和[104]引入的单调条件的帮助下,我们得到了这个正倒向方程解的适定性。最后,初始问题的ε-Nash均衡性质得到证明且有ε=O(1/(?))。第四章主要讨论了大人口系统在部分信息结构下的动态优化问题。这里,单个参与者只能观测到各自潜在的布朗运动生成的信息流。在这样的设定下,状态均值的极限变为公共布朗运动驱动的某个随机过程。在此框架下,提出了两类平均场对策问题:一类是由正向动态系统驱动的,另一类是倒向驱动。在正向情形,我们得到与之相关的平均场对策和某个Riccati方程系统。在倒向情形,分散化策略的显式结构和极限过程满足的倒向随机微分方程也可得到。在两种情形下,我们都可证明ε-Nash均衡性质。第五章研究了两类带脉冲的正倒向随机最优控制问题的最大值原理。第一类是关于带脉冲的正倒向体制切换系统,我们通过利用对正则控制的针状变分和对脉冲控制的凸变分,得到了随机最大值原理。应用最大值原理到一个金融投资-消费模型中,我们获得了最优消费过程并分析了几个经济因素对消费的影响。第二类是关于带脉冲的正倒向延迟系统,主要的技术特色是分析了随机延迟方程和超前倒向方程的对偶关系,并证明了超前正倒向随机微分延迟方程和相应的变分方程的有关估计。在一些附加的凸性假设下,我们也可证明充分的最优性条件,这将在金融中的策略选择问题中有着潜在的应用。
[Abstract]:......
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:F224.32
,
本文编号:1485317
本文链接:https://www.wllwen.com/jingjilunwen/qihuoqq/1485317.html