基于增强学习的智能体博弈问题研究
【学位单位】:哈尔滨工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:O225;TP18
【部分图文】:
第一章 绪论博弈方的决策行为,静态博弈均为非完备信息博弈。静“囚徒困境”,两方同时做出决策,且决策时不知道对方题没有固定的先后次序,而是双方都可以连续的进行决弈。弈方的阵营,可以分为多方博弈、两方博弈和单方博弈弈阵营时为多方博弈,反之为两方博弈。根据博弈方的弈和多体博弈,当一方阵营包含大于等于 2 个博弈者视。弈分类之间相互交叉,同一个问题可能同属于多个分类合作博弈、完全信息博弈、动态博弈和两方博弈。博弈问题的初步了解,针对不同的博弈问题,选用合适该问题的重中之重,博弈领域的相关研究从 1960 年最高峰,单年产出 1369 篇成果,迄今累计 16125 篇成。
(d-1)A2C 收敛效果图 (d-2)A2C 收敛效果图 (d-3)A2C 收敛效果图图 3-11 基于混合网络的仿真验证由上图和上表可知,A2C 混合网络在 1500 代左右的训练后奖励曲线达到一个最高的值,但是由于不确定性等因素,奖励还是出现了一定的回落,策略也实现了收敛,任务完成率大于 90%。而混合 PG 和混合 DQN 网络都无法学习有效策略,虽然奖励曲线有高有低,但是任务完成率很低,都属于无效的局部最优策略。分析原因可能是 A2C 网络具有一定的建模能力,可以对未来状态进行预测,因此更加善于解决稀疏奖励问题。(2)并行网络学习效果分析在路径规划问题中进行并行网络 PG 算法、DQN 算法和 A2C 算法的仿真验证,得到仿真结果如下:表 3-6 任务完成情况统计表算法\任务完成率迭代次数0-500 500-1500 1500-3000 3000-4000 4000-5000并行 PG 0.1 0.0 0.1 0.0 0.0
A2C 混合网络在 1500 代左右的训练后奖值,但是由于不确定性等因素,奖励还是出现了一定的敛,任务完成率大于 90%。而混合 PG 和混合 DQN 网,虽然奖励曲线有高有低,但是任务完成率很低,都属。分析原因可能是 A2C 网络具有一定的建模能力,可,因此更加善于解决稀疏奖励问题。并行网络学习效果分析规划问题中进行并行网络 PG 算法、DQN 算法和 A2C仿真结果如下:表 3-6 任务完成情况统计表\任务完成率迭代次数0-500 500-1500 1500-3000 3000-4000 4000并行 PG 0.1 0.0 0.1 0.0 0行 DQN 0.1 0.1 0.0 0.0 0并行 A2C 0.9 1.0 1.0 1.0 1
【相似文献】
相关期刊论文 前10条
1 姚健奎;;打造城市智能体[J];中国建设信息化;2019年03期
2 陈明阳;;《智能体感瑜伽垫》[J];艺术教育;2018年15期
3 大泽博隆;鲁翠;;人与智能体交互:与人相关的人工智能系统设计[J];装饰;2016年11期
4 李德伟;;创新智能体系统的软件工程方法研究[J];西部素质教育;2015年02期
5 马家妮;武雅丽;;智能体技术在城市交通信号控制系统中应用综述[J];科技风;2015年13期
6 洪梦丹;;论人类与人工智能体的道德矛盾[J];长江丛刊;2017年27期
7 王东浩;;人工智能体引发的道德冲突和困境初探[J];伦理学研究;2014年02期
8 刘筱;;一种自治智能体的实现方案[J];信息系统工程;2013年02期
9 万路军;姚佩阳;孙鹏;;有人/无人作战智能体分布式任务分配方法[J];系统工程与电子技术;2013年02期
10 蔡贵峰;;基于智能体系统的软件工程开发途径探究[J];硅谷;2013年03期
相关会议论文 前10条
1 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
2 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
3 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
4 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 王壮;李辉;李晓辉;沈凤;;基于深度强化学习的作战智能体研究[A];第六届中国指挥控制大会论文集(上册)[C];2018年
6 高晶英;徐旭;;具有动态网络的多智能体动态牵制蜂拥控制算法[A];第十届动力学与控制学术会议摘要集[C];2016年
7 李锋;冯珊;魏莹;周凯波;;基于移动智能体技术的漏洞扫描系统模型[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
8 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
9 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年
10 罗小元;刘丹;;基于势函数的多智能体群集与避障[A];第二十九届中国控制会议论文集[C];2010年
相关重要报纸文章 前10条
1 徐丽 陈虹妃;“智能+”时代 龙华创新构建教育智能体[N];深圳商报;2019年
2 国家新闻出版广电总局数字出版司副司长 冯宏声;百科未来:融入智能体[N];中国新闻出版广电报;2018年
3 本报记者 高超;“超级智能体”正走来[N];通信产业报;2017年
4 记者兴科、通讯员杨树兵、杨娜;阿拉山口 公路旅检启用智能体测系统[N];新疆日报(汉);2009年
5 记者 倪红梅;日本智能体重秤显示减肥最佳时机[N];新华每日电讯;2006年
6 记者 张梦然;“AI临床医生”学习智能体问世[N];科技日报;2018年
7 南方日报记者 苏梓威;高交会展示智慧城市蓝图[N];南方日报;2018年
8 佛山日报记者 文倩;那些爱上众筹的佛山潮品[N];佛山日报;2015年
9 本报记者 李翔 刘书文;让城市成为智慧有机体[N];人民日报;2018年
10 特约撰稿 罗超;小米发布智能体重秤 优势仅剩低价?[N];通信信息报;2015年
相关博士学位论文 前10条
1 黄利伟;智能协同算法研究及应用[D];电子科技大学;2019年
2 李哲;面向工业应用的智能体控制系统研究[D];西北工业大学;2017年
3 宿云;基于本体的智能体情感识别与情感诱发研究[D];兰州大学;2019年
4 张文旭;基于一致性与事件驱动的强化学习研究[D];西南交通大学;2018年
5 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年
6 李章维;基于多Agent的数据广播信息平台研究及在远程教育中的应用[D];浙江大学;2004年
7 刘兴华;证券市场动力机制及智能体建模分析[D];东华大学;2005年
8 程华农;面向智能体的化工过程运行系统分析、模型化和集成策略的研究[D];华南理工大学;2002年
9 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
10 宋一兵;计算机生成兵力中智能体技术与应用研究[D];哈尔滨工程大学;2006年
相关硕士学位论文 前10条
1 董诗音;基于增强学习的智能体博弈问题研究[D];哈尔滨工业大学;2019年
2 李明豪;基于深度强化学习的非完备信息3D视频游戏博弈算法研究[D];哈尔滨工业大学;2018年
3 毛建博;基于虚拟自我对局的多人非完备信息机器博弈策略研究[D];哈尔滨工业大学;2018年
4 单慧;基于神经调节机理的发育网络设计与应用[D];郑州大学;2019年
5 陈明阳;智能体感瑜伽垫设计[D];深圳大学;2018年
6 王征;人工智能体的法律主体地位研究[D];河北师范大学;2019年
7 丁治强;基于Q-learning行为树的人群组行为建模与仿真[D];中国科学技术大学;2019年
8 吴悦晨;面向视觉感知与导航的深度强化学习算法研究与实现[D];山东大学;2019年
9 王怡然;面向公共安全的人员建模与仿真研究[D];中国科学技术大学;2018年
10 李建清;智能体的环境视觉感知与应用[D];山东大学;2018年
本文编号:2820468
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2820468.html