当前位置:主页 > 科技论文 > 自动化论文 >

一种基于随机投影的贝叶斯时间差分算法

发布时间:2017-07-01 21:00

  本文关键词:一种基于随机投影的贝叶斯时间差分算法,由笔耕文化传播整理发布。


【摘要】:在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间.
【作者单位】: 苏州大学计算机科学与技术学院;吉林大学符号计算与知识工程教育部重点实验室;软件新技术与产业化协同创新中心;
【关键词】强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
【基金】:国家自然科学基金(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329) 江苏省自然科学基金(No.BK2012616) 江苏省高校自然科学研究项目(No.13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室项目(No.93K172014K04) 苏州市应用基础研究计划工业部分(No.SYG201422,No.SY201308)
【分类号】:TP181
【正文快照】: 1引言 强化学习(Reinforcement Learning,RL)是在未知、动态环境中在线求解最优策略,以获取最大期望回报的一类算法.强化学习方法的基本框架为:Agent通过试错与环境进行交互,将每一步的延迟回报通过时间信用分配机制传递给过去动作序列中的某些动作,用值函数评价每个状态或状

【相似文献】

中国期刊全文数据库 前10条

1 陈德祥;;一种基于反向的差分算法[J];电脑编程技巧与维护;2014年04期

2 陈尚飞;;利于计算曲线点串的差分算法[J];广西民族大学学报(自然科学版);2006年S2期

3 崔鹏;周兵;杨镇江;;基于特征大小的背景差分算法研究[J];微计算机信息;2010年12期

4 李聪明;;基于差分算法的K-均值聚类分析[J];现代计算机(专业版);2008年06期

5 王镇西;王冬青;张惠娟;;基于改进差分算法的运动目标检测与跟踪[J];工业控制计算机;2010年10期

6 罗志伟;邵明亮;王昌荣;;改进式背景差分算法研究[J];中国测试;2014年02期

7 宋武;陈德祥;汪文彬;;一种基于分解多目标的三角差分算法[J];电脑知识与技术;2012年31期

8 陶春鸣;梅杨;;基于GPS差分算法的研究与滑坡监测系统软件实现[J];河南科学;2007年05期

9 宋武;;基于密度的多目标差分算法[J];科技信息;2009年19期

10 肖刚;谢红;;基于二进制差分算法的HWSN目标覆盖研究[J];应用科技;2013年06期

中国重要会议论文全文数据库 前1条

1 谢昱飞;张涵信;袁先旭;叶友达;;差分算法对称性分析的数值验证[A];中国力学学会学术大会'2005论文摘要集(下)[C];2005年

中国硕士学位论文全文数据库 前4条

1 陈恋芳;基于差分算法的群孔加工工艺优化[D];福州大学;2011年

2 刘战;求解温盐双扩散系统的高精度紧致差分算法[D];宁夏大学;2004年

3 刘洁玮;双曲守恒律的数值差分算法[D];合肥工业大学;2007年

4 肖丽君;基于对称差分算法的视频运动目标分割研究[D];吉林大学;2007年


  本文关键词:一种基于随机投影的贝叶斯时间差分算法,由笔耕文化传播整理发布。



本文编号:507402

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/507402.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b394c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com