基于知识的深度强化学习研究综述
本文选题:深度强化学习 + 知识 ; 参考:《系统工程与电子技术》2017年11期
【摘要】:作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。
[Abstract]:As a machine learning method to solve sequential decision making, reinforcement learning adopts continuous "interactive trial and error" mechanism to realize the continuous interaction between agent and environment, so as to obtain the optimal strategy for accomplishing tasks. It fits in with the way human beings make decisions to improve their intelligence. Knowledge, as a kind of structured information including experience, values, cognitive rules and expert opinions, can be used in intensive learning to improve the learning efficiency and reduce the learning difficulty of Agent. In view of this, based on the basic theory of reinforcement learning, this paper systematically summarizes and combs the research results of deep reinforcement learning and knowledge-based in-depth reinforcement learning.
【作者单位】: 解放军理工大学指挥信息系统学院;浙江大学机械工程学院;
【基金】:总装备部预研基金(9140A06020315JB25081) 中国博士后科学基金第八批特别项目(2015T81081);中国博士后科学基金第60批面上项目(2016M6029174) 江苏省自然科学基金青年基金面上项目(BK20140075)资助课题
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 马志方;;一种类推学习法[J];计算机研究与发展;1990年09期
2 汪云九,姚国正;神经系统中学习和记忆的数学模型[J];自然杂志;1987年11期
3 冯英伟;韩瑛;;基于Agent技术的网络教育学习者分析[J];教育信息化;2006年20期
4 吴元斌;;单agent强化学习与多agent强化学习比较研究[J];电脑与信息技术;2009年01期
5 汪国华;;CBR模式下个体进行高效率学习的思考[J];数学通讯;2009年06期
6 王星;方滨兴;张宏莉;何慧;赵蕾;;关系分类的学习界限研究[J];软件学报;2013年11期
7 张景祥;王士同;邓赵红;李奕;蒋亦樟;;具有协同约束的共生迁移学习算法研究[J];电子学报;2014年03期
8 孙方平;符秀辉;;复杂环境下机器人的行为学习研究[J];仪器仪表学报;2006年S3期
9 赵凤飞;覃征;;一种多动机强化学习框架[J];计算机研究与发展;2013年02期
10 余志刚,徐华中;变学习因子神经网络自适应控制研究[J];武汉汽车工业大学学报;1997年02期
相关博士学位论文 前5条
1 王星;关系分类模型的学习界限与应用[D];哈尔滨工业大学;2015年
2 潘剑寒;基于多潜在空间的迁移学习算法研究[D];合肥工业大学;2016年
3 田青;有序学习及在图像分析中的应用研究[D];南京航空航天大学;2016年
4 邹朋成;有监督的相似性度量学习研究与应用[D];南京航空航天大学;2016年
5 龙明盛;迁移学习问题与方法研究[D];清华大学;2014年
相关硕士学位论文 前10条
1 李杰龙;基于主动学习的多示例多标签学习算法研究[D];广东工业大学;2016年
2 谢江龙;面向张量数据的迁移学习研究与应用[D];广东工业大学;2016年
3 周谊成;面向强化学习的模型学习算法研究[D];苏州大学;2016年
4 鲁成祥;基于动机的强化学习及其应用研究[D];曲阜师范大学;2016年
5 徐骁;深度学习的亚健康识别算法的研究[D];辽宁大学;2016年
6 赵权;标记分布学习若干问题研究[D];东南大学;2016年
7 李波;基于分层强化学习的多agent路径规划与编队方法研究[D];河南师范大学;2016年
8 杨卫;面向深度学习扩展算法的编译优化方法[D];吉林大学;2017年
9 焦夏;基于多Agent的移动学习模型研究[D];宁波大学;2013年
10 马海鹏;泛在学习环境下一种学习控制模型的研究[D];陕西师范大学;2014年
,本文编号:1906623
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1906623.html