贝叶斯强化学习中策略迭代算法研究
本文选题:贝叶斯强化学习 + 策略迭代 ; 参考:《苏州大学》2016年硕士论文
【摘要】:贝叶斯强化学习是基于贝叶斯技术,利用概率分布对值函数、策略和环境模型等参数进行建模,求解强化学习相关任务,其主要思想是利用先验分布估计未知参数的不确定性,然后通过获得的观察信息计算后验分布来学习知识。基于此,本文以策略迭代方法为框架,提出三种改进的基于贝叶斯推理和策略迭代的强化学习算法:(1)针对传统的贝叶斯强化学习算法在学习未知的环境模型时,不能动态地控制环境模型学习次数的缺陷,提出一种基于贝叶斯智能模型学习的策略迭代算法。一方面,算法在模型学习部分利用Dirichlet分布方差阈值决定是否需要继续学习模型,既保证模型学习的充分性,又降低模型学习的无效率。另一方面,算法在策略学习时利用探索激励因子为选取探索动作提供保障,同时,也使得模型学习能够遍历所有状态动作对,确保算法收敛。模型学习和策略学习相辅相成,使得算法收敛到最优策略。(2)针对传统的强化学习算法无法高效地解决动作探索与利用的平衡问题,提出一种基于动作值函数(Q值函数)概率估计的异步策略迭代算法。在策略评估部分,利用高斯伽玛分布对Q值函数进行建模,基于先验分布和观察的数据求解Q值函数后验,评估策略好坏。在策略改进部分,基于Q值函数后验分布,利用Myopic-VPI求解最优动作,保证动作探索与利用达到平衡。最后,算法采用异步更新方法,倾向于计算与策略相关的动作值函数,提高算法收敛速度。(3)针对传统的策略迭代算法无法高效地解决状态连续的且环境模型未知的MDP问题,提出一种基于高斯过程时间差分的在线策略迭代算法。主要利用高斯过程和时间差分公式对动作值函数进行建模,结合贝叶斯推理,求解值函数空间的后验分布。在学习过程中,依据在线学习算法的特性及时评估改进后的策略,边学习边改进。在一定程度上,所提算法可以完成连续状态空间下强化学习任务且收敛速度较快。
[Abstract]:Bayesian reinforcement learning is based on Bayesian technology, using probability distribution to model value function, strategy and environment model, and solving reinforcement learning related tasks. The main idea of Bayesian reinforcement learning is to use prior distribution to estimate the uncertainty of unknown parameters. Then the knowledge is learned by calculating the posteriori distribution of the observed information. Based on this, three improved reinforcement learning algorithms based on Bayesian reasoning and strategy iteration are proposed in this paper. (1) for the traditional Bayesian reinforcement learning algorithm, when learning unknown environment model, This paper presents a strategy iterative algorithm based on Bayesian intelligent model learning, which can not control the learning times of environment model dynamically. On the one hand, in the part of model learning, the threshold of Dirichlet distribution variance is used to determine whether to continue learning the model, which not only guarantees the adequacy of model learning, but also reduces the inefficiency of model learning. On the other hand, the search incentive factor is used to guarantee the selection of the exploration action in the strategy learning process. At the same time, the model learning can traverse all state action pairs to ensure the convergence of the algorithm. Model learning and strategy learning complement each other, which makes the algorithm converge to the optimal strategy. (2) the traditional reinforcement learning algorithm can not effectively solve the balance problem of action exploration and utilization. An asynchronous strategy iterative algorithm based on the probability estimation of action value function (Q valued function) is proposed. In the part of strategy evaluation, the Q value function is modeled by Gao Si gamma distribution, and the posteriori of Q value function is solved based on the prior distribution and observation data, and the evaluation strategy is good or bad. In the part of strategy improvement, based on the posteriori distribution of Q value function, Myopic-VPI is used to solve the optimal action to ensure the balance between the exploration and utilization of the action. Finally, the algorithm adopts asynchronous updating method, which tends to calculate the action value function related to the strategy, and improves the convergence speed of the algorithm. (3) the traditional strategy iterative algorithm can not efficiently solve the MDP problem with continuous state and unknown environment model. An online policy iterative algorithm based on Gao Si process time difference is proposed. The action value function is modeled by Gao Si process and time difference formula, and the posteriori distribution of value function space is solved by combining Bayesian reasoning. In the process of learning, the improved strategy is evaluated according to the characteristics of the online learning algorithm. To some extent, the proposed algorithm can accomplish reinforcement learning tasks in continuous state space and converge faster.
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 周兴铭;张民选;;倒数迭代算法的理论分析与方案探讨[J];计算机工程与科学;1980年02期
2 周兴铭,张民选;倒数迭代算法的理论分析与方案探讨[J];计算机学报;1981年05期
3 杨泰澄;一种求解局部实现问题的迭代算法[J];信息与控制;1984年06期
4 张铭,吴士达;最大似然阵处理的迭代算法[J];声学与电子工程;1991年03期
5 姜亚健;刘停战;刘伟;;一族具有四阶收敛的迭代算法[J];中国传媒大学学报(自然科学版);2010年03期
6 杨军一;;方程求根的逆校正加速迭代算法[J];计算机工程与科学;1987年03期
7 张培琨,李育林,刘继芳,乔学光,忽满利;随机相位光学防伪中的前向迭代算法[J];激光杂志;1999年04期
8 张民选;;平方根迭代算法及其初值选择[J];计算机工程与科学;1987年02期
9 黄正良;万百五;韩崇昭;;大规模工业过程稳态优化控制新方法——自适应双迭代算法[J];控制与决策;1992年06期
10 凌燮亭,潘明德,林华;电路容差分析的区间迭代算法[J];电子学报;1989年03期
相关会议论文 前7条
1 刘立振;;BPT算法的分辨力与应用前景[A];1990年中国地球物理学会第六届学术年会论文集[C];1990年
2 胡光华;殷英;李世云;;即时差分策略迭代算法[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
3 刘晓龙;李峻宏;高建波;刘荣灯;刘蕴韬;陈东风;;基于Levenberg-Marquardt算法的衍射峰形拟合[A];中国原子能科学研究院年报 2009[C];2010年
4 唐杰;;变分迭代算法在非线性微分方程中的应用[A];第七届全国非线性动力学学术会议和第九届全国非线性振动学术会议论文集[C];2004年
5 代荣获;张繁昌;刘汉卿;;基于快速阈值收敛迭代算法的基追踪地震信号分解[A];2014年中国地球科学联合学术年会——专题13:计算地震学论文集[C];2014年
6 王在华;;求时滞系统Hopf分岔周期解的迭代算法[A];第二届全国动力学与控制青年学者研讨会论文摘要集[C];2008年
7 何志明;张迪生;;《一类广义L.Q.最优控制模型的状态迭代算法与并行处理》[A];1991年控制理论及其应用年会论文集(上)[C];1991年
相关博士学位论文 前3条
1 吴树林;分裂——迭代算法的理论分析及应用[D];华中科技大学;2010年
2 武文佳;边值问题的四阶紧有限差分方法及单调迭代算法[D];华东师范大学;2012年
3 周小建;求解非线性方程重根的迭代算法[D];南京师范大学;2013年
相关硕士学位论文 前10条
1 李晨;基于MapReduce的多维迭代算法的研究与实现[D];东北大学;2014年
2 尤树华;贝叶斯强化学习中策略迭代算法研究[D];苏州大学;2016年
3 李枝枝;一类复线性系统的乘积型三角分裂迭代算法[D];兰州大学;2016年
4 郭丹;Markov跳跃It?随机系统中的耦合Lyapunov方程的快速迭代算法[D];哈尔滨工业大学;2016年
5 王玉;线性随机系统中的RICCATI方程加速迭代算法[D];哈尔滨工业大学;2016年
6 丁可;一类广义协相补问题组的解的存在性以及迭代算法[D];四川大学;2004年
7 李程;M-矩阵及其‖A~(-1)‖_∞计算的迭代算法[D];电子科技大学;2004年
8 王涛;两类线性系统的迭代算法[D];安徽大学;2013年
9 雷坤;美式期权最优实施边界的单调迭代算法及其在定价计算中的应用[D];华东师范大学;2013年
10 宇斌彬;基于数据划分的迭代算法的并行与优化[D];中国科学技术大学;2015年
,本文编号:2112699
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2112699.html