信息的价值在马尔可夫决策理论下的应用
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C934
【图文】:
在一个多阶段决策问题中,效用函数用于评价某一策略。对于整个系统来说个阶段的效用之和是这个系统所采取某一策略的效用值。决策的目的就是求以最大化效用函数的最优策略,或近似最优策略。在一个完整的决策过程中系统的初始状态为0s ,最后所采取的策略为p,在系统可获得的效用值u 用效数V ( s ,p),最大化效用值表示为:( ) ( ( )) ( )0 0max , ,i iu s V s p p P(2其中,策略ip 被称为最优策略。1.2 马尔可夫过程理论马尔可夫过程是一类随机过程,它是研究离散随机事件动态系统的重要方个随机事件可用随机变量来描述,一个基础的离散随机过程如图 2-1 所示。假一个离散且随机的动态系统中,图中每个节点对应一个随机变量,即在某个时某个状态ts ,节点之间的弧线对应从上一状态转移到下一状态的直接概率分时刻t系统转移到状态ts 的条件概率为( )0 1 1Pr | , ,...t ts s s s 。
图 2-3 基本马尔可夫决策过程夫决策过程形式上可以被定义成一个四元组 S , A空间,即环境状态的集合;空间,即可选行动的集合; S' → 0, 1 是状态转移函数, ( ) ( )T s ' s , a Pr s ' s ,a 行了行动 a ,系统从状态 转移到状态 s '的概率;→ 是回报函数,代表在环境状态 s 下,Agen回报值(又称奖赏值)。为了达到长期回报的最大选择动作,这样 Agent 在整个过程中的总收益为DP 的状态空间和动作空间可以分为离散空间和连值函数的决策,是一个状态到动作的映射,:td S → A。,对于所有的时刻t T,其策略用决策序列表示,
义型可被形式化地定义为一个六元组, S , A, Z , T , O ,R能环境状态的集合,1 2S {s , s ,...},在第 t 时刻的状态世界进行交互的所有可选行动的集合,可表示为 A 一个行动都会影响它所处的下一个状态;察的有限集合,表示为1 2Z { z , z ,...}。态转移函数,( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行动a后,系统转移到状态 s '的概率;察概率分布函数,( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行动a,随后在下一时刻t 转移到状态 s '后,能够得率分布函数可以用来模拟现实环境中的感知过程充满报函数,与 MDP 一样,Agent 在任意状态 s 执行一个里假设立即回报值是有界的,min maxR R R 。DP 框架可以用循环图表示,如图 2-4 所示。
【相似文献】
相关期刊论文 前10条
1 张其黎;刘海风;李琼;宋红州;张弓木;;氢状态方程的路径积分蒙特卡洛研究[J];计算物理;年期
2 黄介农;宁根福;;追寻杂技走向艺术的梦——记宁根福荣获蒙特卡洛国际马戏节40周年“特殊贡献奖”[J];杂技与魔术;2016年02期
3 ;第39届蒙特卡洛国际马戏节金奖节目一览[J];杂技与魔术;2015年02期
4 ;世界赛车赛历[J];汽车之友;2017年04期
5 雷宏伟;尹博崴;;别瞧不起“乡下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家试驾[J];汽车之友;2017年12期
6 晓天;;MINI JOHN COOPER WORKS GP CONCEPT 战斗版MINI[J];汽车知识;2017年10期
7 宓鲁;;弹指挥间二十年(五)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年06期
8 宓鲁;;弹指挥间二十年(三)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年04期
9 王峰;;骄人的蒙特卡洛国际马戏节[J];杂技与魔术;1999年02期
10 ;第23届蒙特卡洛国际马戏节外国节目风彩[J];杂技与魔术;1999年02期
相关会议论文 前10条
1 陈向;王维嘉;魏文领;朱雪耀;;基于蒙特卡洛搜索树的自动飞行机动[A];2016年航空科学与技术全国博士生学术论坛摘要集[C];2016年
2 杨卓鹏;郑恒;薛峰;任立明;;基于蒙特卡洛--贝叶斯网络方法的卫星地面站可用性分析[A];第二届中国卫星导航学术年会电子文集[C];2011年
3 郭永辉;翦波;孙海传;;基于蒙特卡洛的装备系统可靠性仿真[A];2007系统仿真技术及其应用学术会议论文集[C];2007年
4 程磊;房永智;王刚;;蒙特卡洛计算方法与作战毁伤模拟决策分析[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
5 康晓岩;陈永义;;一种改进的蒙特卡洛选择算子[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
6 营笑;王少永;蒋文亮;金招省;;仪表放大器的容差分析与仿真研究[A];2015航空试验测试技术学术交流会论文集[C];2015年
7 薛奕达;霍佳震;;供应链延迟战略价值定量分析——蒙特卡洛下的奇异期权估价[A];第三届(2008)中国管理学年会——会计分会场论文集[C];2008年
8 张s乓
本文编号:2763833
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/2763833.html