概率近似正确的强化学习算法解决连续状态空间控制问题
本文关键词:概率近似正确的强化学习算法解决连续状态空间控制问题
更多相关文章: 强化学习 概率近似正确 kd树 双连杆机械臂
【摘要】:在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态 动作 奖励 状态 动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.
【作者单位】: 中国科学院自动化研究所复杂系统管理与控制国家重点实验室;
【关键词】: 强化学习 概率近似正确 kd树 双连杆机械臂
【基金】:国家自然科学基金项目(61273136,61573353,61533017,61603382) 复杂系统管理与控制国家重点实验室优秀人才基金项目资助~~
【分类号】:TP18;TP273
【正文快照】: 1引言(Introduction)强化学习(reinforcement learning,RL)[1 4]通过在线学习的方式,与被控系统或环境进行交互,调整策略使系统获得尽可能高的累加奖励.这类方法在解决模型未知系统的控制问题时有着显著的意义.但是传统RL[5 6]具有数据利用率低、探索效率差的缺点,算法没有
【相似文献】
中国期刊全文数据库 前10条
1 李春贵,刘永信,陈波;多步截断行动—评价强化学习算法[J];内蒙古大学学报(自然科学版);2005年02期
2 郑宇;罗四维;吕子昂;;基于模型的层次化强化学习算法[J];北京交通大学学报;2006年05期
3 周如益;高阳;;一种基于性能势的无折扣强化学习算法[J];广西师范大学学报(自然科学版);2006年04期
4 高阳;周如益;王皓;曹志新;;平均奖赏强化学习算法研究[J];计算机学报;2007年08期
5 何源;张文生;;基于核方法的强化学习算法[J];微计算机信息;2008年04期
6 杨旭东;刘全;李瑾;;一种基于资格迹的并行强化学习算法[J];苏州大学学报(自然科学版);2012年01期
7 刘梦婷;牟永敏;赵刚;欧阳腾飞;;基于强化学习算法的供应链管理订单策略研究[J];数据通信;2013年01期
8 王学宁,贺汉根,徐昕;求解部分可观测马氏决策过程的强化学习算法[J];控制与决策;2004年11期
9 李春贵;刘永信;王萌;;集成规划的行动-自适应评价强化学习算法[J];内蒙古大学学报(自然科学版);2008年03期
10 孟伟;韩学东;;并行强化学习算法及其应用研究[J];计算机工程与应用;2009年34期
中国重要会议论文全文数据库 前2条
1 陈宗海;段家庆;任皴;罗杨宇;李成荣;;针对机器人觅食任务的强化学习算法及其仿真研究[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
2 孟祥萍;苑全德;皮玉珍;;基于量子理论的多Agent系统强化学习研究[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 陈兴国;基于值函数估计的强化学习算法研究[D];南京大学;2013年
2 郑宇;分层强化学习算法及其应用研究[D];北京交通大学;2009年
3 李妼;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 宋拴;结合演示数据的强化学习与排序算法研究[D];南京大学;2014年
2 马朋委;Q_learning强化学习算法的改进及应用研究[D];安徽理工大学;2016年
3 许志鹏;基于动作抽象的分层强化学习算法研究[D];苏州大学;2016年
4 房东阳;基于模糊强化学习的柔性结构控制方法研究[D];西安电子科技大学;2015年
5 张晓艳;连续时间分层强化学习算法[D];合肥工业大学;2010年
6 苏浩铭;基于模型知识的大空间强化学习算法的研究与实现[D];合肥工业大学;2008年
7 杨宛璐;基于性能势的改进平均奖赏强化学习算法研究[D];广东工业大学;2014年
8 宋超峰;基于平均型强化学习算法的动态调度方法的研究[D];天津大学;2006年
9 袁姣红;基于模型的动态分层强化学习算法研究[D];中南大学;2011年
10 褚建华;Q-learning强化学习算法改进及其应用研究[D];北京化工大学;2009年
,本文编号:531683
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/531683.html