一种基于最优策略概率分布的POMDP值迭代算法

发布时间：2017-10-03 11:49

本文关键词：一种基于最优策略概率分布的POMDP值迭代算法

【摘要】：随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率.
【作者单位】：南京大学软件学院;南京大学软件新技术国家重点实验室;南京大学计算机科学与技术系;
【关键词】： 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
【基金】：国家自然科学基金(No.61375069) 江苏省自然科学基金(No.BK20131277)
【分类号】：TP18
【正文快照】： 3.南京大学软件新技术国家重点实验室,江苏南京210093)1引言规划问题,即“设计合理的行动计划以达到个体目标”[1],是人工智能研究里的重要领域.序列决策问题(Sequential Decision Making)是规划问题的一个重要子领域.而动态不确定性环境下的行动规划是其中的热点,其动态性和

【参考文献】

中国期刊全文数据库前4条

1 张子宁;单甘霖;段修生;;基于部分可观马氏决策过程的多平台主被动传感器调度[J];电子学报;2014年10期

2 章宗长;陈小平;;杂合启发式在线POMDP规划[J];软件学报;2013年07期

3 赵二虎;阳小龙;彭云峰;隆克平;;CPSM:一种增强IP网络生存性的客户端主动服务漂移模型[J];电子学报;2010年09期

4 刘海涛;洪炳熔;朴松昊;王雪梅;;不确定性环境下基于进化算法的强化学习[J];电子学报;2006年07期

【共引文献】

中国期刊全文数据库前10条

1 刘峰;王崇骏;骆斌;;一种基于最优策略概率分布的POMDP值迭代算法[J];电子学报;2016年05期

2 陈天平;孟相如;崔文岩;许媛;;基于网络可生存性态势感知的主动服务漂移模型[J];空军工程大学学报(自然科学版);2015年06期

3 徐伟刚;;基于网络信息流的自适应MWM模型研究[J];西南师范大学学报(自然科学版);2015年09期

4 仵博;郑红燕;冯延蓬;陈鑫;;一种基于模型的可分解贝叶斯在线强化学习[J];电子学报;2014年07期

5 赵攀;;考虑萤火虫群的网络生存性计算方法[J];辽宁工程技术大学学报(自然科学版);2014年03期

6 赵攀;魏正曦;张弘;;基于混合蛙跳的网络生存性计算方法[J];计算机工程与设计;2013年11期

7 赵攀;魏正曦;张弘;;网络生存性计算方法以及性能评价[J];计算机应用;2013年10期

8 朱丽娜;吴庆涛;娄颖;郑瑞娟;;基于自律计算的系统服务可信性自优化方法[J];微电子学与计算机;2013年08期

9 焦玉民;王强;徐婷;谢庆华;王海涛;;基于GA-Q-learning算法的虚拟维修作业规划模型[J];兵工学报;2013年05期

10 张玉州;李锐;江克勤;程玉胜;王一宾;;基于自适应多局部搜索memetic算法的多跑道地面等待问题求解[J];系统工程理论与实践;2012年11期

【二级参考文献】

中国期刊全文数据库前10条

1 程洪玮;王博;安玮;;一种基于信息决策树的低轨星座传感器调度方法[J];电子学报;2010年11期

2 钱X;马旭东;戴先中;房芳;;预测行人运动的服务机器人POMDP导航[J];机器人;2010年01期

3 卞爱华;王崇骏;陈世福;;基于点的POMDP算法的预处理方法[J];软件学报;2008年06期

4 洪小亮;郭义喜;;服务漂移机制的研究[J];信息工程大学学报;2008年01期

5 苏璞睿;冯登国;;基于进程行为的异常检测模型[J];电子学报;2006年10期

6 刘海涛;洪炳熔;朴松昊;王雪梅;;不确定性环境下基于进化算法的强化学习[J];电子学报;2006年07期

7 李响,陈小平;一种动态不确定性环境中的持续规划系统[J];计算机学报;2005年07期

8 黄遵国,卢锡城,胡华平;生存能力技术及其实现案例研究[J];通信学报;2004年07期

9 刘敏华,萧德云;基于相似度的多传感器数据融合[J];控制与决策;2004年05期

10 周文辉,胡卫东,余安喜,郁文贤;基于协方差控制的集中式传感器分配算法研究[J];电子学报;2003年S1期

【相似文献】

中国期刊全文数据库前10条

1 吴汉生;;一类定量微分对策理论中最优策略的算法及其收敛性[J];自动化学报;1992年02期

2 黄小原;县级宏观经济系统的最优策略[J];控制与决策;1987年03期

3 姜爱林;两化并进工业化与信息化协调发展的最优策略[J];科技成果纵横;2004年03期

4 袁开福;高阳;;周期盘点库存系统的制造与再制造最优策略[J];计算机集成制造系统;2010年02期

5 曾庆宁;;折扣多目标马氏决策规划的两种模糊最优策略[J];西安电子科技大学学报;1989年01期

6 曾庆宁;;DMOMDP及其П_m~d与П_S~d优势[J];桂林电子工业学院学报;1989年01期

7 陈向勇;井元伟;李春吉;刘晓平;;一种基于Lanchester方程的交战取胜最优策略[J];控制与决策;2011年06期

8 张瑞振;楚岩枫;;基于服务溢出效应下的弱势零售商竞争策略研究[J];电子商务;2014年05期

9 王进才;;有限资源条件下新装备维修保障最优策略研究[J];电子产品可靠性与环境试验;2008年06期

10 奚飞;周永务;;基于固定分割的库存路径问题最优策略[J];系统工程与电子技术;2009年10期

中国重要会议论文全文数据库前4条

1 谢益民;郑应平;;部分观测的两并行不同服务台路径最优策略[A];1991年控制理论及其应用年会论文集（上）[C];1991年

2 高永;向锦武;;多目标火力分配的系统动力学模拟[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年

3 霍沛军;陈继祥;宣国良;;在企业具有单位成本优势时的最优事后许可策略[A];面向复杂系统的管理理论与信息系统技术学术会议专辑[C];2000年

4 张荣;;竞争性及兼容性条件下软件公司对公共品投资的最优策略[A];第十届中国青年信息与管理学者大会论文集[C];2008年

中国重要报纸全文数据库前7条

1 黄达强浙江大学经济学院、浙江大学跨学科社会科学研究中心;有效利用他人愤怒情绪可形成最优策略[N];中国社会科学报;2014年

2 本报记者朱茵;等待是当下最优策略[N];中国证券报;2012年

3 富国基金管理公司;基金投资的最优策略：选择绩优基金+买入长期持有[N];上海证券报;2007年

4 阿琪;目前最优策略是防御性进攻[N];上海证券报;2014年

5 ;政府官员能否谈论“升官发财”？[N];工人日报;2004年

6 主持人本报记者朱茵;8月：等待是最优策略[N];中国证券报;2012年

7 记者潘圣韬;申银万国：等待是当前最优策略[N];上海证券报;2012年

中国博士学位论文全文数据库前2条

1 陈李钢;基于赞助搜索的关键字广告最优策略研究[D];哈尔滨工业大学;2011年

2 高春燕;不确定性对生产库存系统运营策略和绩效的影响分析[D];南京大学;2011年

中国硕士学位论文全文数据库前8条

1 杨欣;无理由退货政策下电子商务零售商的退货策略研究[D];电子科技大学;2015年

2 吕景涛;竞争占优的零售商在两种不同的供货模式下最优策略研究[D];中国科学技术大学;2009年

3 李金霞;随机环境下变比例投资的最优策略和破产概率[D];南京航空航天大学;2007年

4 马迎宾;离散空间上两类游戏的最优策略[D];河南师范大学;2011年

5 向红旭;马尔科夫经济环境下保险公司最优策略[D];清华大学;2010年

6 杨雁雁;在线性控制下工程投资的最优策略及方法[D];华中师范大学;2014年

7 胡小欢;多需求产品的库存和定价联合策略研究[D];北京交通大学;2014年

8 赖明辉;混合制造和再制造系统库存控制和回收管理动态协调优化[D];南开大学;2010年

，

本文编号：965043

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/965043.html

上一篇：基于虚拟现实技术的串联机器人摆线针轮减速器设计
下一篇：单件小批MES动态作业计划与调度优化算法的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|