一种基于视觉注意力机制的深度循环Q网络模型
本文选题:深度学习 + 强化学习 ; 参考:《计算机学报》2017年06期
【摘要】:由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性.
[Abstract]:The method of depth reinforcement learning, which is formed by the combination of modern reinforcement learning and deep learning, is a new research hotspot in the field of artificial intelligence.A substantial breakthrough has been made in various tasks requiring high dimensional raw input data and decision control.In particular, a model called Deep Q Network has shown a level comparable to that of human players in dealing with complex problems such as Atari 2600 games that tend to be real-world.However, when there is a delayed reward, the performance of the deep Q network will decline sharply because of the need of long step planning in order to optimize the strategy.This shows that the depth Q network is not good at solving strategic intensive learning tasks.To solve this problem, the traditional depth Q network model is improved by using the circular neural network with visual attention mechanism, and a more perfect depth reinforcement learning model is proposed.There are two key ideas in the new model: one is to use the circulatory neural network module composed of double-layer threshold cyclic unit to memorize the historical information in a long time step.This allows Agent to use delayed feedback rewards in time to correctly guide the next step of action selection; second, it adaptively focuses on smaller but more valuable image areas through visual attention mechanisms.Thus, Agent can learn approximate optimal strategy more efficiently.This paper evaluates the effectiveness of the new model by selecting some classic Atari 2600 strategic games as experimental objects.The experimental results show that the new model has good performance and stability in some strategic tasks compared with the traditional depth reinforcement learning model.
【作者单位】: 苏州大学计算机科学与技术学院;软件新技术与产业化协同创新中心;吉林大学符号计算与知识工程教育部重点实验室;
【基金】:国家自然科学基金项目(61272005,61303108,61373094,61472262,61502323,61502329) 江苏省自然科学基金(BK2012616) 江苏省高校自然科学研究项目(13KJB520020,16KJB520041) 吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04) 苏州市应用基础研究计划工业部分(SYG201422,SYG201308)资助~~
【分类号】:TP18
【参考文献】
相关期刊论文 前5条
1 黎亚雄;张坚强;潘登;胡惮;;基于RNN-RBM语言模型的语音识别研究[J];计算机研究与发展;2014年09期
2 梁淑芬;刘银华;李立琛;;基于LBP和深度学习的非限制条件下人脸识别算法[J];通信学报;2014年06期
3 傅启明;刘全;王辉;肖飞;于俊;李娇;;一种基于线性函数逼近的离策略Q(λ)算法[J];计算机学报;2014年03期
4 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期
5 高阳;周如益;王皓;曹志新;;平均奖赏强化学习算法研究[J];计算机学报;2007年08期
【共引文献】
相关期刊论文 前10条
1 涂中文;赵艳明;宋金宝;;基于自动编码器的语音音色客观评价[J];中国传媒大学学报(自然科学版);2017年04期
2 黄寿喜;邱卫根;;基于改进的深度信念网络的人脸表情识别[J];计算机工程与设计;2017年06期
3 王准;何元烈;;基于混合价值计算的云存储缓存替换方案[J];计算机工程与设计;2017年06期
4 刘全;翟建伟;钟珊;章宗长;周倩;章鹏;;一种基于视觉注意力机制的深度循环Q网络模型[J];计算机学报;2017年06期
5 宋超;许道云;秦永彬;;分离多路卷积神经网络研究[J];计算机工程;2017年06期
6 史佳琪;张建华;;基于深度学习的超短期光伏精细化预测模型研究[J];电力建设;2017年06期
7 顾亚风;叶学义;夏经文;夏胡云;;基于卷积神经网络的古玩图片分类方法[J];软件导刊;2017年05期
8 沈忠华;;新技术视域下的教育大数据与教育评估新探——兼论区块链技术对在线教育评估的影响[J];远程教育杂志;2017年03期
9 韩洁;李盛阳;张涛;;基于深度学习的遥感影像城市扩展方法研究[J];载人航天;2017年03期
10 王晓辉;朱永利;郭丰娟;;基于同步监测和深度学习的电容器介损角辨识[J];电力建设;2017年05期
【二级参考文献】
相关期刊论文 前1条
1 刘全;傅启明;龚声蓉;伏玉琛;崔志明;;最小状态变元平均奖赏的强化学习方法[J];通信学报;2011年01期
【相似文献】
相关期刊论文 前10条
1 黄威,林丽闽,宋亮;基于第三方整合的商业网络模型[J];合肥工业大学学报(自然科学版);2003年S1期
2 韦洛霞;耦合生长网络模型的模拟[J];河南大学学报(自然科学版);2004年02期
3 郝玉;叶世伟;;基于软竞争机制的对传网络模型及应用[J];计算机仿真;2006年03期
4 马费成;王晓光;;知识转移的社会网络模型研究[J];江西社会科学;2006年07期
5 孟凡玲;范向军;;水电工程监理评标BP网络模型研究[J];人民黄河;2007年07期
6 李文林;苗静;刘振红;;含时滞的复杂动态网络模型的指数同步[J];河南师范大学学报(自然科学版);2009年05期
7 鲁智勇;张权;张希;唐朝京;;等效分组级联BP网络模型及其应用[J];电子学报;2010年06期
8 江琼琴;宋文广;;一种改进的BP网络模型在唇裂手术预测分析中的应用[J];池州学院学报;2012年06期
9 殷洪义 ,荣明宗 ,周昭南 ,周曼殊;网络模型的统一表征[J];国防科技大学学报;1981年02期
10 戴显砥,,戴郁;生产与存贮问题的网络模型[J];基建优化;1995年01期
相关会议论文 前10条
1 张书超;那日萨;;具有老化机制的阿波罗网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
2 王仲君;黄红球;;一个具有确定度分布的有向网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
3 李季明;张宁;;具有随机性的确定性网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
4 秦绍萌;陈勇;;生态系统宏观演化的网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
5 骆继明;郭新军;;分布复杂机电系统网络模型图自动生成算法研究[A];煤矿机电一体化新技术创新与发展2012学术年会论文集[C];2012年
6 周胜利;耿显民;;具有真实网络一般特性的复杂网络模型[A];第七届中国不确定系统年会论文集[C];2009年
7 杨洪勇;王福生;;基于带宽的Internet网络模型[A];2007中国控制与决策学术年会论文集[C];2007年
8 赵雁飞;刘永忠;陈三强;孙皓;;冷冻干燥过程相迁移和相分布的孔尺度网络模型与模拟[A];第八届全国冷冻干燥学术交流会论文集[C];2005年
9 梁昌洪;郑家骏;;复电介质反演的精确网络模型[A];2001年全国微波毫米波会议论文集[C];2001年
10 刘杰;陆君安;;两类复杂网络模型及其同步能力研究[A];2006全国复杂网络学术会议论文集[C];2006年
相关重要报纸文章 前3条
1 ;智能光网络的网络模型[N];人民邮电;2003年
2 冯卫东;美构建可快速确认基因功能的基因网络模型[N];科技日报;2008年
3 贺赞晖 唐大海;价格网络与金融属性定价[N];期货日报;2010年
相关博士学位论文 前10条
1 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
2 李淑静;复合复杂网络模型研究与应用[D];青岛大学;2011年
3 谭利;复杂网络模型及应用研究[D];中南大学;2010年
4 隋毅;多子网复合复杂网络模型及其相关性质的研究[D];青岛大学;2012年
5 黄朝琴;基于离散缝洞网络模型的多尺度两相流动模拟理论研究[D];中国石油大学(华东);2012年
6 岳博;Bayes网络模型及其学习算法研究[D];西安电子科技大学;2002年
7 彭利民;基于Cayley图的无线P2P覆盖网络模型及相关技术研究[D];华南理工大学;2011年
8 王晨晨;碳酸盐岩介质双孔隙网络模型构建理论与方法[D];中国石油大学(华东);2013年
9 蔡先锋;矿井三维地理网络模型及网络分析研究[D];中国矿业大学(北京);2012年
10 姜江;证据网络建模、推理及学习方法研究[D];国防科学技术大学;2011年
相关硕士学位论文 前10条
1 王芳;基于深度信念网络的资源检索与推荐系统[D];北京邮电大学;2015年
2 杨光勇;科研合作超网络模型的构建及其应用研究[D];上海理工大学;2013年
3 李倩;深度网络模型构建及学习算法研究[D];西安电子科技大学;2014年
4 闫廷亚;基于GHSOM网络模型的FY-2E夜间卫星云图分类方法研究[D];华东交通大学;2015年
5 刘峰;轨道车辆MVB网络模型研究与设计[D];长春工业大学;2016年
6 齐亚萍;具有实数词汇结构的语言竞争复杂agent网络模型[D];昆明理工大学;2016年
7 邵春昌;基于图理论的信息网络模型研究[D];中央民族大学;2016年
8 郑光璞;模拟视觉皮层工作机制的发育网络模型研究[D];郑州大学;2016年
9 张磊;微博超网络模型的建立及关键节点识别方法研究[D];南京航空航天大学;2016年
10 田茂根;并行超网络的研究及其在电影评分预测等问题中的应用[D];重庆邮电大学;2016年
本文编号:1769087
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1769087.html