当前位置:主页 > 科技论文 > 自动化论文 >

一种不稳定环境下的策略搜索及迁移方法

发布时间:2019-09-26 18:30
【摘要】:强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.
【图文】:

状态转移,问题,迁移策略,最优策略


264逦电子学邋报逦2017年逡逑右1邋-的概座储彳曰I邋-严.I逦R、_尺",…逦'邋用于求解最优策略,而户,,用于迁移所学习的最优策略’逡逑’邋-T日、]慨半守心“+逦,邋_r逦并测试所迁移策略的性能?在解决其他问题时,可以根据实逡逑/邋^邋_2_逦际情况设置为其他概率分布,如泊松分布(Poisson邋distribu-逡逑/逦—邋+邋S邋(邋h邋*邋h*邋)成立逦lion)、高斯分布(Gaussian邋distribution)等.逡逑^邋n邋,,u逦'邋A,"逦在实验过程中,设定每个MDP分布包含200个子逡逑根据定理3,我们可以发现策略/!;.从/\(邋?)迁移邋MDP,即《=200;MDP分布之间距离的阈值(=0.01,折扣逡逑到 ̄(邋?)后,当MDP样本足够大时,其性能主要依赖因子y=0.9,T=0.0丨,CR=0.3,Cp=0.7,,e—贪心策略中^逡逑于P?,(邋?)和P,,:(邋?)之间的距离,?)以及W邋0.7;从MDP分布中采样得到的子MDP的数量默认是200;逡逑在P?,(邋?)中的,/i;邋)?因此,如果当两个MDP分逦根据算法2,求解P,,和之间的距离是34.54.逡逑布足够接近时,我们可以直接将策略从一个MDP分布逦在不稳定MDP环境下,包括贪心策略(Greedy邋Poli-逡逑直接迁移到另一个MDP分布,实现策略的迁移,并保证逦cy)、&贪心策略或者模拟退火策略等在内的传统强化逡逑所迁移策略在新分布中具有较好的性能.另外,当我们逦学习无法很好地平衡算法执行过程中的探索和利用问逡逑固定t的值,逦题_例如,贪心策略在算法执行过程中仅利用Agem已逡逑^29逦逦邋/In2(2/r)逦

迁移策略,最优性,样本数量,边界


第2期逦朱斐:一种不稳定环境下的策略搜索及迁移方法逦265逡逑接着,我们通过实验比较各策略在不同MDP样本逦逦逡逑数量下的性能.在实验中,我们设定MDP样本的数量分逡逑赵邋400邋-邋\逡逑另丨丨是丨0、20、40、80、150以及200.图2是在不同吣叩采邋g逦逦逦逦逦逡逑样情况下,与各策略的性目匕比较图.从图2中1丨丨以行出逦2000邋500邋1000邋1500邋2000邋2500邋3000邋3500邋4000邋4500邋5000逡逑在不同MDP样本情况下,相比与贪心策略、心贪心策略逦i90|逦逡逑,逦邋蝴丨80-逡逑以及随机策略,13邋-、/pU,u)邋I对应的策略始终能够取逦趣?-逦^_____逡逑S邋160-逦逦逡逑得较优的实验结果.同时,观察i3邋_邋/pu,“)I在同逦逦逡逑MDP样本情况下累计奖赏值,可以发现丨3邋-逦140。5。。丨_邋_邋:漂。的^恀循棚5_逡逑的曲线相对是比较稳定的,这也是由于该策略能够较逦图3不同MDP样本数《下迁移策略的最优性边界逡逑好的平衡学习过程中的探索和利用问题.另外,相对于逦7邋结束语逡逑基于制数的3作选.择【策略,?二¥(二U加f易逦*文主要针对传统强化学习算法无法求解非稳定逡逑计界,这也可财栛」’加Pㄓ剩眨辏ⅲ停模衻w下灥测及控}碧猓岢鰹担停模蟹植祭疵桢义希常担埃危卞问霾晃榷ǎ停模谢肪常⑸杓屏艘恢只诠郊牟呗运彦义细猓

本文编号:2542285

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2542285.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d8f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com