基于蒙特卡洛Q值函数的多智能体决策方法

发布时间：2021-06-19 11:15

　　多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比,多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程（Dec-POMDPs）建立了不确定环境下多智能体决策问题的通用模型,自提出以来受到很大关注,但是求解Dec-POMDPs问题计算复杂度高,内存占用大.基于此,提出一种新的Q值函数表示—–蒙特卡洛Q值函数（QMC）,并从理论上证明QMC是最优Q值函数Q?的上界,能够保证启发式搜索到最优解;运用自适应抽样方法,平衡收敛准确性和求解时间的关系;结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,提出一种基于QMC的蒙特卡洛聚类/扩展算法（CEMC）, CEMC整合了Q值函数求解和策略搜索过程,避免保存所有值函数,只按需求解.实验结果表明, CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法.

【文章来源】：控制与决策. 2020,35(03)北大核心EICSCD

【文章页数】：8 页

本文编号：3237709

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3237709.html

上一篇：城市物流中电动无人车配送规划及算法研究
下一篇：新建应用型本科网络学术文献资源检索与利用实证研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|