半马尔科夫切换拓扑下的多智能体系统一致性

发布时间：2020-07-31 13:05

【摘要】：在实际中,由于障碍物,外部扰动以及通信范围等限制,智能体之间的通信拓扑可能会发生随机改变。为了描述智能体之间的这种随机时变拓扑,一个常用的方式就是将时变拓扑假设成在几个已知的拓扑之间切换并且拓扑之间的切换过程建模成马尔科夫过程。应该指出的是,由马尔科夫过程描述的时变拓扑在应用时有许多限制,这是因为在马尔科夫过程中驻留时间一般服从指数分布,由此得到的带有马尔科夫切换拓扑的结果相对较保守。最近,带有半马尔科夫切换拓扑的复杂网络同步问题已经吸引了一些关注。和经典马尔科夫切换拓扑相比,半马尔科夫切换拓扑中驻留时间服从更一般的概率分布。因此半马尔科夫切换拓扑比经典马尔科夫切换拓扑有着更广泛的应用。然而,带有半马尔科夫切换拓扑多智能体系统的一致性还未得到关注。鉴于此,本课题针对这一问题展开研究。具体包括以下几个方面:(1)研究了半马尔科夫切换拓扑下非线性多智能体系统的领航跟随型一致性问题。首先将领航者智能体和跟随者智能体的动力学建模成一般线性系统。其次将马尔科夫切换拓扑推广到半马尔科夫切换拓扑。由于半马尔科夫切换拓扑中的转移率是时变的,它更加一般。针对所研究的多智能体系统,提出了一个新的基于过去状态信息的一致性协议。通过一个系统模型转化,将多智能体的一致性问题转化成半马尔科夫切换系统的稳定性问题。利用半马尔科夫切换系统理论和代数图理论,得到一个充分条件并给出了控制器的具体表达式,在该控制器下,多智能体系统能够达成带有指数衰减率的一致性。(2)研究了半马尔科夫切换拓扑下带有执行器饱和的多智能体系统领航跟随型一致性问题。首先,将动态网络拓扑的切换建模成半马尔科夫过程并且考虑到执行器饱和的影响,提出了一个新的一致性协议。分别利用扇区方法和凸组合方法研究了带有执行器饱和的多智能体系统一致性问题。在此基础上得到了两个充分条件,它们能够保证领航跟随型多智能体系统在均方意义下达成局部一致性。基于获得的充分条件,两个优化问题被提出来,用以计算一致性反馈增益矩阵以及找到一致性吸引域的最大估计。(3)研究了半马尔科夫切换拓扑下基于事件触发的领航跟随型一致性问题。首先给出一个基于采样数据的事件触发传输策略,其中事件触发条件仅需要在每次采样时刻测量和计算。在此基础上,通过将动态网络拓扑的切换建模成半马尔科夫过程并且考虑事件传输策略的影响,一个新的一致性协议被提出来了。应该指出的是,此处考虑的切换拓扑的拉普拉斯矩阵并不需要是对称的。通过构造一个模态依赖的李雅普洛夫函数并利用往复凸组合方法,一些充分条件被得到了,上述条件可以保证领航跟随型一致性在均方意义下是可达的。而且,一致性增益矩阵和事件触发参数可以同时求出。(4)研究了半马尔科夫切换拓扑下带执行器饱和的领航跟随型自适应一致性问题。利用低增益反馈技术和自适应技术,一个新的带有自适应耦合权重的完全分布式控制协议被提出来了。假设每个可能的切换拓扑包含一个有向生成树且带有领航者作为根节点,在此基础上利用半马尔科夫切换系统理论和一个合适的李雅普洛夫函数,一个半全局一致性充分条件被得到了。应该指出的是这里考虑的智能体要求是输入有界的渐近零可控系统。(5)研究了带有半马尔科夫切换拓扑和执行器饱和的二阶多智能体系统基于事件触发的一致性问题。通过模型变换,一致性问题被转化成误差系统的稳定性问题。利用分段连续李雅普洛夫函数,对带有半马尔科夫切换拓扑的二阶多智能体系统,给出系统达成一致性的一个充分条件。上述分段连续李雅普洛夫函数的使用充分考虑了锯齿型时滞的特点,因此所得的结论具有较小的保守性。另外,研究结果表明二阶一致性依赖于采样周期,网络拓扑以及事件触发参数。而且,这里提供了一个有效的方法可以协同设计事件触发参数矩阵和一致性控制器增益矩阵。
【学位授予单位】：大连理工大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：O189.1;TP273
【图文】：

类地行星,探测器

体所不能完成的各种复杂的任务。因此，多智能体系统在很多领域得到了广泛应用。在逡逑航天领域，多航天飞船的编队飞行技术可以帮助人们完成更多的太空飞行任务。在类地逡逑行星探测器（Ｔｅｒｒｅｓｔｒｉａｌ邋Ｐｌａｎｅｔ邋Ｆｉｎｄｅｒ，简称ＴＰＦ）（见图１．２）计划中，用多个小型望远镜来逡逑代替庞大复杂的望远镜以实现更高的分辨率。首先将这些小型望远镜安装在多个航天器逡逑上，然后让这些航天器执行精确的编队飞行任务。在天体物理成像模式下，以１公里为逡逑基准的多个编队ＴＰＦ飞行器可以实现约２毫弧秒的分辨率［４］。在智能交通领域，逡逑Ｅｌ－Ｔａｎｔａｗｙ等将每个路口的信号灯建模成一个智能体，每个智能体可以与其邻居智能体逡逑进行通信［５］，并且采用马尔科夫决策过程建立路口多智能体的协同模型，从而实现所有逡逑智能体的协同工作。为了避免系统状态空间的维度灾难和保障计算效率，该文提出了一逡逑种多智能体强化学习算法：在智能体与环境的不断交互中，根据实时反馈的奖罚值，在逡逑线自主学习系统完成从环境状态到协同工作的映射学习，生成最优控制策略。最后，逡逑Ｅｌ－Ｔａｎｔａｗｙ等以５９个路口进行实验仿真

结构图,章节,结构图,多智能体系统

基于半马尔科夫切换拓扑，本文分别研究了非线性多智能体的一致性问题、带有执逡逑行器饱和的一致性问题、基于事件触发的一致性问题以及带有执行器饱和的自适应一致逡逑性问题等。论文各章节的结构图见下图１．３，具体研究内容安排如下：逡逑第二章考虑了带有半马尔科夫切换拓扑的非线性多智能体系统的领航跟随型一致逡逑性问题。首先将领航者智能体和跟随者智能体的动力学建模成一般线性系统。其次考虑逡逑了更加一般的半马尔科夫切换拓扑。和经典马尔科夫切换拓扑相比较，半马尔科夫切换逡逑拓扑中的转移率是时变的。接下来，针对所研宄的多智能体系统，提出了一个新的基于逡逑过去状态信息的一致性协议。最后，通过一个系统模型转化，多智能体系统一致性问题逡逑被转化成半马尔科夫切换系统稳定性问题。在此基础上，利用半马尔科夫切换系统理论逡逑和代数图理论，得到一致性控制器设计的充分条件，该条件能够保证多智能体系统达成逡逑带有指数衰减率的一致性。逡逑第三章研宄了半马尔科夫切换拓扑下带有执行器饱和的多智能体系统领航跟随型逡逑一致性问题。本章首先将动态网络拓扑的切换建模成半马尔科夫过程。在此基础上，提逡逑出一个基于半马尔科夫切换拓扑的一致性协议。针对执行器饱和，分别利用扇区有界方逡逑法和凸组合方法分析了带有半马尔科夫切换拓扑的多智能体系统一致性问题

状态轨迹,状态,内能

到跟随者智能体的状态最终趋近于领航者智能体的状态。类似于文献［１４９］，定义追踪误逡逑差为＝逦。追踪误差图像见图２．３，从图２．３可以看到跟随者在较短的时间逡逑内能够跟随领航者的状态。此外，图２．４给出了带有四个模态的半马尔科夫切换信号的逡逑图像。逡逑Ｔｈｅ邋ｆｉｒｓｔ邋ｓｔａｔｅ邋ｃｏｍｐｏｎｅｎｔ逡逑０．２逦１逦１逦１逦１逦ｉ逦１逦ｉ逦邋ｉ逦ｉ逦—逡逑逦Ａｇｅｎｔ邋１逡逑，—一逦Ａｇｅｎｔ邋２逡逑０？邋１５邋＿逦逦Ａｇｅｎｔ逦３逡逑Ａｇｅｎｔ邋４逡逑0邋１邋＿．／邋＼逦—Ａｇｅｎｔ邋５逡逑’＊＊邋＼逦Ｌｅａｄｅｒ逡逑＾逦０．０５邋－邋／邋＼＼逦－逡逑卜谓ＶＷＶＷ＼逡逑ｘ－邋－０．０５邋－邋ｉｆ＼邋ｉｊ邋ｗ逦－逡逑ｌａ邋ｖ逡逑－０．１邋－ｊｊ！逦■逡逑－０．１５邋ｉｊ逦－逡逑＂＇０逦１逦２逦３逦４逦５逦６逦７逦８逦９逦１０逡逑ｔ（ｓ）逡逑Ｔｈｅ邋ｓｅｃｏｎｄ邋ｓｔａｔｅ邋ｃｏｍｐｏｎｅｎｔ逡逑０．２５逦ｉ逦ｉ逦！逦ｉ逦ｉ逦ｉ逦ｉ逦ｉ逦ｉ逡逑逦Ａｇｅｎｔ邋１逡逑０．２逦－－－一．…Ａｇｅｎｔ邋２邋．逡逑＼逦逦Ａｇｅｎｔ逦３逡逑０．１５逦＾ｇｅｎｔ逦４＾逡逑＼逦－—■？—邋Ａｇｅｎｔ邋５逡逑＇％、逦一，？？…．－Ｌｅａｄｅｒ逡逑０．１邋－邋％邋逦逡逑又邋０．０５邋－逦－逡逑＿ｒ逦？二？二？：？．．逡逑一Ｑ邋邋ｌ逦－－ＩＩ邋，｜邋■邋，邋，邋，邋邋邋邋逡逑５

【参考文献】