当前位置:主页 > 管理论文 > 领导决策论文 >

信息的价值在马尔可夫决策理论下的应用

发布时间:2020-07-20 19:10
【摘要】:在过去的几十年中,随着经济理论、通信工程、企业管理及众多学科中涉及不确定因素和序列性决策问题的大量新模型的涌现,不确定性环境下的马尔可夫决策过程建模理论得到迅速发展。在人工智能领域,马尔可夫决策过程是用来建模规划决策问题的基本理论模型,也是序贯决策的主要研究领域。自古以来,信息和消除不确定性是相联系的。在决策过程中,计算信息的价值的目的是引导不确定性环境下的信息收集过程,提高决策质量,最终实现最优决策。本文的研究工作如下:(1)针对一类需要权衡决策质量和成本的最优不确定性序贯决策问题,建立了一个全新的决策模型——基于信念的价值决策模型(Belief-Based Value of Information,Belief-VOI),通过信息的价值判断决策控制中的最优停止时间,为收集信息的直接成本和这些信息所能提供给未来决策行为的期望收益之间的平衡提供了分析和解决方案工具。(2)本文把Belief-VOI建模理论应用于众包任务质量的决策控制中,详细的推理了建模过程和应用过程,验证了理论的正确性,说明了在决策问题中判定信息的价值的科学性和现实意义。(3)对于在求解一般马氏决策模型的最优策略时面临状态空间过大的不足,本文针对所提出的Belief-VOI模型的特性,研究了效率更高的近似方法,提出了一种基于信念状态的蒙特卡洛采样方法(BMCT),并说明了这种简化方式的可行性和实用性。本文对最优不确定性序贯决策问题和信息的价值在马尔可夫决策过程理论下的应用进行了更深入的探索,实现了人工智能技术在决策分析领域的突破。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:C934
【图文】:

效用值,马尔可夫过程,最优策略,效用函数


在一个多阶段决策问题中,效用函数用于评价某一策略。对于整个系统来说个阶段的效用之和是这个系统所采取某一策略的效用值。决策的目的就是求以最大化效用函数的最优策略,或近似最优策略。在一个完整的决策过程中系统的初始状态为0s ,最后所采取的策略为p,在系统可获得的效用值u 用效数V ( s ,p),最大化效用值表示为:( ) ( ( )) ( )0 0max , ,i iu s V s p p P(2其中,策略ip 被称为最优策略。1.2 马尔可夫过程理论马尔可夫过程是一类随机过程,它是研究离散随机事件动态系统的重要方个随机事件可用随机变量来描述,一个基础的离散随机过程如图 2-1 所示。假一个离散且随机的动态系统中,图中每个节点对应一个随机变量,即在某个时某个状态ts ,节点之间的弧线对应从上一状态转移到下一状态的直接概率分时刻t系统转移到状态ts 的条件概率为( )0 1 1Pr | , ,...t ts s s s 。

马尔可夫决策过程


图 2-3 基本马尔可夫决策过程夫决策过程形式上可以被定义成一个四元组 S , A空间,即环境状态的集合;空间,即可选行动的集合; S' → 0, 1 是状态转移函数, ( ) ( )T s ' s , a Pr s ' s ,a 行了行动 a ,系统从状态 转移到状态 s '的概率;→ 是回报函数,代表在环境状态 s 下,Agen回报值(又称奖赏值)。为了达到长期回报的最大选择动作,这样 Agent 在整个过程中的总收益为DP 的状态空间和动作空间可以分为离散空间和连值函数的决策,是一个状态到动作的映射,:td S → A。,对于所有的时刻t T,其策略用决策序列表示,

马尔可夫决策过程,部分可观察


义型可被形式化地定义为一个六元组, S , A, Z , T , O ,R能环境状态的集合,1 2S {s , s ,...},在第 t 时刻的状态世界进行交互的所有可选行动的集合,可表示为 A 一个行动都会影响它所处的下一个状态;察的有限集合,表示为1 2Z { z , z ,...}。态转移函数,( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行动a后,系统转移到状态 s '的概率;察概率分布函数,( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行动a,随后在下一时刻t 转移到状态 s '后,能够得率分布函数可以用来模拟现实环境中的感知过程充满报函数,与 MDP 一样,Agent 在任意状态 s 执行一个里假设立即回报值是有界的,min maxR R R 。DP 框架可以用循环图表示,如图 2-4 所示。

【相似文献】

相关期刊论文 前10条

1 张其黎;刘海风;李琼;宋红州;张弓木;;氢状态方程的路径积分蒙特卡洛研究[J];计算物理;年期

2 黄介农;宁根福;;追寻杂技走向艺术的梦——记宁根福荣获蒙特卡洛国际马戏节40周年“特殊贡献奖”[J];杂技与魔术;2016年02期

3 ;第39届蒙特卡洛国际马戏节金奖节目一览[J];杂技与魔术;2015年02期

4 ;世界赛车赛历[J];汽车之友;2017年04期

5 雷宏伟;尹博崴;;别瞧不起“乡下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家试驾[J];汽车之友;2017年12期

6 晓天;;MINI JOHN COOPER WORKS GP CONCEPT 战斗版MINI[J];汽车知识;2017年10期

7 宓鲁;;弹指挥间二十年(五)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年06期

8 宓鲁;;弹指挥间二十年(三)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年04期

9 王峰;;骄人的蒙特卡洛国际马戏节[J];杂技与魔术;1999年02期

10 ;第23届蒙特卡洛国际马戏节外国节目风彩[J];杂技与魔术;1999年02期

相关会议论文 前10条

1 陈向;王维嘉;魏文领;朱雪耀;;基于蒙特卡洛搜索树的自动飞行机动[A];2016年航空科学与技术全国博士生学术论坛摘要集[C];2016年

2 杨卓鹏;郑恒;薛峰;任立明;;基于蒙特卡洛--贝叶斯网络方法的卫星地面站可用性分析[A];第二届中国卫星导航学术年会电子文集[C];2011年

3 郭永辉;翦波;孙海传;;基于蒙特卡洛的装备系统可靠性仿真[A];2007系统仿真技术及其应用学术会议论文集[C];2007年

4 程磊;房永智;王刚;;蒙特卡洛计算方法与作战毁伤模拟决策分析[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年

5 康晓岩;陈永义;;一种改进的蒙特卡洛选择算子[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年

6 营笑;王少永;蒋文亮;金招省;;仪表放大器的容差分析与仿真研究[A];2015航空试验测试技术学术交流会论文集[C];2015年

7 薛奕达;霍佳震;;供应链延迟战略价值定量分析——蒙特卡洛下的奇异期权估价[A];第三届(2008)中国管理学年会——会计分会场论文集[C];2008年

8 张s乓

本文编号:2763833


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/2763833.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7e02***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com