当前位置:主页 > 科技论文 > 自动化论文 >

强化学习迁移中的源任务选择研究

发布时间:2020-03-28 09:36
【摘要】:强化学习是解决顺序决策问题的一类重要的机器学习技术,经过几十年的发展已经成功应用于自动控制、机器人、推荐和检索等诸多领域。近年来,使用迁移学习方法来解决强化学习任务的研究表明,从源任务中学到的知识可以用来更好地解决类似的目标任务。然而,当进行迁移学习的源任务与目标任务不相似时,会导致负迁移的发生,但是很少有研究关注如何防止负迁移,因此该问题仍然是一个开放性的问题。目前大部分迁移学习方法假设相似的源任务是由人来选择的;只有少量方法基于任务相似性度量选择最相似的源任务,但是这些方法往往都有比较严格的前提条件;此外,目前还没有一种明确的方法可以根据一个或多个指标确定负迁移何时发生。本文针对强化学习迁移中的负迁移问题,研究如何选择合适的源任务,从不同角度提出了相应的解决方法。其主要贡献可以概括如下:1.针对强化学习迁移中如何选择合适的源任务这一问题,提出了两种新颖的基于整体模型的马尔可夫决策过程(Markov Decision Process,MDP)间的距离度量方法。具体的,(1)这两种度量都是基于状态间距离的。为此,本文提出了同构的MDP(Homogeneous MDP)的概念以及计算同构MDP的状态间距离的方法;(2)这两种度量方法分别使用康托洛维奇度量(Kantorovich Metric)和豪斯多夫度量(Hausdorff Metric)来组合两个MDP的状态间的距离,以此作为两个MDP间的距离。这两种度量能够用于强化学习迁移中,根据任务间的距离选择合适的源任务。此外,本文还提出了两种相应的值函数迁移方法。在通用的实验场景上的实验结果表明,本文提出的度量能够有效地找到相似任务,避免负迁移;同时,所提出的度量和迁移方法能够显著提升算法的学习性能。2.针对强化学习迁移中如何判断迁移学习是否有效这一问题,提出了一种基于深度神经网络模型的识别一对迁移任务的正负迁移性能的方法。本文研究一类视频强化学习任务(Video Reinforcement Learning Tasks),该类任务的特征可由其任务描述图像表示,不同任务间的相关性(或差异)能够体现在图像中。在这类任务上,将预测迁移性能(正迁移或负迁移)的问题形式化为二分类问题;然后采用一个深度卷积神经网络自动学习两个任务的高层特征表示,并用一个全连接网络预测其迁移性能。在通用的实验场景上构造数据集并进行实验,结果表明,本文所提出的方法可以准确地预测迁移性能,并且显著优于对比方法。3.针对课程学习中如何构造合适.的课程这一问题,提出了一类基于源任务自动创建和任务相似度的构建迁移学习任务序列的方法。其主要创新点有:(1)基于面向对象的强化学习任务表示(Object-Oriented Representation),提出了三种简化任务的算子,用于修改目标任务生成源任务集合。(2)针对使用不同算子修改的任务,提出了相应的任务相似性度量方法,这些度量都是基于面向对象的表示,根据对象、状态等的相似性和差异性进行定义;同时,结合任务的难易程度定义了任务迁移潜能。(3)提出了两种基于迁移潜能的任务序列自动构造方法。在通用的实验场景上的实验结果表明,本文所提出的方法能够构造较好的任务序列,显著提升目标任务的学习速度,并且优于现有的最新算法。
【图文】:

源任务,目标任务,目标


识迁移到目标任务,来改变目标任务的学习过程;这相当于智能体在学习之前逡逑获得了一些先验知识,以指导其更好的进行学习。强化学习迁移的基本框架如逡逑图1.2所示。通常,强化学习迁移的过程可以分为三个步骤:(1)根据目标任逡逑务,选择合适的一个或多个源任务(和源任务中学到的知识);(2)获得源任务逡逑和目标任务之间的相关性,根据该相关性生成迁移知识;(3)将迁移知识迁移逡逑到目标任务,学习目标任务。在连续的迁移场景中(如终身强化学习Lifelong逡逑Leaming[l,,24,邋151]),智能体学好目标任务后,可以将该任务及学到的知识也逡逑存入源任务库中,在未来遇到相似的新任务时复用该任务的知识(如图中虚线逡逑所示)。逡逑CT邋>邋知识邋A邋^逦邋/逦A邋逦逡逑源任务库知识K-2^迁移算法-移-知%目标任务一*学习算法I ̄^逡逑:逦‘逦/逦逦邋I逡逑■逦Kn邋M逦I逡逑L:.逦J逡逑图1.2:强化学习迁移的基本框架逡逑我们知道,如果源任务与目标任务相似,那么从源任务迁移知识到目标任逡逑务,很可能会提高智能体在目标任务的学习性能;反之,如果源任务和目标任逡逑务不相似

组织结构图,组织结构,源任务,负迁移


本文主要针对强化学习迁移中的负迁移问题,研究如何选择合适的源任务,逡逑从不同角度提出了相应的解决方法。全文共六章,各章的组织结构和主要研究逡逑内容如图1.3所示。其具体研宄内容可以概括如下:逡逑1.
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 谢超兰;;高中英语任务型阅读教学初探[J];青少年日记(教育教学研究);2016年08期

2 杨玲丽;;优化方式,自主探究——“任务学习单”在综合实践活动中的运用[J];华夏教师;2014年S1期

3 华芳;;例谈用好“任务学习单”[J];七彩语文(教师论坛);2015年08期

4 ;介绍Jane Willis著《任务学习法概览》[J];外语教学与研究;1998年04期

5 许棣华;王志坚;;基于多任务学习的邮件过滤系统的研究[J];计算机技术与发展;2010年10期

6 李松林,甘健侯;基于任务学习法的素质教育研究[J];学术探索;2002年02期

7 余传明;李浩男;安璐;;基于多任务深度学习的文本情感原因分析[J];广西师范大学学报(自然科学版);2019年01期

8 韩凤娟;肖春静;王欢;;基于多任务学习的微博流行度预测[J];河南大学学报(自然科学版);2017年05期

9 马恺;;基于树结构的多任务学习算法[J];福建电脑;2017年09期

10 严育洪;;设计好“大任务”,让学生看见“知识就是力量”[J];小学教学(数学版);2018年03期

相关会议论文 前4条

1 ;任务驱动式教学法[A];中学教育科研2017年5-6期(总第216-217期)[C];2017年

2 张宇;张鹏远;颜永红;;基于注意力LSTM和多任务学习的远场语音识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年

3 雷加美;;英语教学中的任务型阅读模式研究[A];十三五规划科研成果汇编(第二卷)[C];2017年

4 田满红;;中级工数学课程与专业结合的教学实践[A];中国职协2016年度优秀科研成果获奖论文集(学校二等奖)[C];2016年

相关重要报纸文章 前6条

1 江苏省无锡市锡山教师进修学校 严育洪;寻找撬起课堂的支点[N];中国教师报;2017年

2 记者 徐爱龙;紧抓首要政治任务学习宣传贯彻好十八大精神 紧密联系自身实际主动服务全面小康社会建设[N];甘肃日报;2012年

3 记者 徐爱龙;紧抓首要政治任务学习宣传贯彻好十八大精神 紧密联系自身实际主动服务全面小康社会建设[N];甘肃法制报;2012年

4 浙江省特级教师、金华市教育局教研室副主任 朱孝平;“完美”学习任务源自生动实践[N];中国教育报;2019年

5 本报记者 朱颖婕;课堂如何跟上“超越课本”的学生[N];文汇报;2018年

6 撰稿 段丽 策划 吉奉刚;MVP注入发展新动力[N];中国邮政报;2012年

相关博士学位论文 前5条

1 宋锦华;强化学习迁移中的源任务选择研究[D];南京大学;2018年

2 张晓彤;多任务聚类研究[D];大连理工大学;2018年

3 李亚;多任务学习的研究[D];中国科学技术大学;2018年

4 浦剑;多任务学习算法研究[D];复旦大学;2013年

5 杨名;矩阵广义逆高斯分布在多任务学习中的应用[D];浙江大学;2014年

相关硕士学位论文 前10条

1 马建阳;基于多任务学习的数据分类方法研究[D];北京交通大学;2018年

2 金凤;多视角的构建及其在单任务学习和多任务学习中的应用[D];华东师范大学;2010年

3 黄艾青;基于叠加模型的多任务学习及应用[D];中国科学技术大学;2015年

4 刘凌波;基于多任务学习的年龄估计研究[D];中南大学;2012年

5 戴美银;基于动态模糊集的半监督多任务学习[D];苏州大学;2012年

6 周茜;基于多任务学习的人脸识别方法[D];西北大学;2013年

7 邹亮;基于多任务学习的微博信息流重排序研究[D];西安电子科技大学;2017年

8 曹佳炯;基于多任务学习和度量学习的人脸属性分类研究[D];浙江大学;2018年

9 田贝贝;基于流形学习和多任务学习的肿瘤基因表达数据分类方法研究[D];武汉科技大学;2015年

10 罗忠莉;网络环境下任务牵引式教学在初中信息技术课程中的应用探究[D];云南师范大学;2017年



本文编号:2604268

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2604268.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b902b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com