信息的价值在马尔可夫决策理论下的应用

发布时间：2020-07-20 19:10

【摘要】：在过去的几十年中,随着经济理论、通信工程、企业管理及众多学科中涉及不确定因素和序列性决策问题的大量新模型的涌现,不确定性环境下的马尔可夫决策过程建模理论得到迅速发展。在人工智能领域,马尔可夫决策过程是用来建模规划决策问题的基本理论模型,也是序贯决策的主要研究领域。自古以来,信息和消除不确定性是相联系的。在决策过程中,计算信息的价值的目的是引导不确定性环境下的信息收集过程,提高决策质量,最终实现最优决策。本文的研究工作如下:(1)针对一类需要权衡决策质量和成本的最优不确定性序贯决策问题,建立了一个全新的决策模型——基于信念的价值决策模型(Belief-Based Value of Information,Belief-VOI),通过信息的价值判断决策控制中的最优停止时间,为收集信息的直接成本和这些信息所能提供给未来决策行为的期望收益之间的平衡提供了分析和解决方案工具。(2)本文把Belief-VOI建模理论应用于众包任务质量的决策控制中,详细的推理了建模过程和应用过程,验证了理论的正确性,说明了在决策问题中判定信息的价值的科学性和现实意义。(3)对于在求解一般马氏决策模型的最优策略时面临状态空间过大的不足,本文针对所提出的Belief-VOI模型的特性,研究了效率更高的近似方法,提出了一种基于信念状态的蒙特卡洛采样方法(BMCT),并说明了这种简化方式的可行性和实用性。本文对最优不确定性序贯决策问题和信息的价值在马尔可夫决策过程理论下的应用进行了更深入的探索,实现了人工智能技术在决策分析领域的突破。
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：C934
【图文】：

效用值,马尔可夫过程,最优策略,效用函数

在一个多阶段决策问题中，效用函数用于评价某一策略。对于整个系统来说个阶段的效用之和是这个系统所采取某一策略的效用值。决策的目的就是求以最大化效用函数的最优策略，或近似最优策略。在一个完整的决策过程中系统的初始状态为0s ，最后所采取的策略为p，在系统可获得的效用值u 用效数V ( s ,p)，最大化效用值表示为：( ) ( ( )) ( )0 0max , ,i iu s V s p p P（2其中，策略ip 被称为最优策略。1.2 马尔可夫过程理论马尔可夫过程是一类随机过程，它是研究离散随机事件动态系统的重要方个随机事件可用随机变量来描述，一个基础的离散随机过程如图 2-1 所示。假一个离散且随机的动态系统中，图中每个节点对应一个随机变量，即在某个时某个状态ts ，节点之间的弧线对应从上一状态转移到下一状态的直接概率分时刻t系统转移到状态ts 的条件概率为( )0 1 1Pr | , ,...t ts s s s 。

马尔可夫决策过程

图 2-3 基本马尔可夫决策过程夫决策过程形式上可以被定义成一个四元组 S , A空间，即环境状态的集合；空间，即可选行动的集合; S' → 0， 1 是状态转移函数， ( ) ( )T s ' s , a Pr s ' s ,a 行了行动 a ，系统从状态转移到状态 s '的概率；→ 是回报函数，代表在环境状态 s 下，Agen回报值（又称奖赏值）。为了达到长期回报的最大选择动作，这样 Agent 在整个过程中的总收益为DP 的状态空间和动作空间可以分为离散空间和连值函数的决策，是一个状态到动作的映射，:td S → A。，对于所有的时刻t T，其策略用决策序列表示，

马尔可夫决策过程,部分可观察

义型可被形式化地定义为一个六元组， S , A, Z , T , O ,R能环境状态的集合，1 2S {s , s ,...}，在第 t 时刻的状态世界进行交互的所有可选行动的集合，可表示为 A 一个行动都会影响它所处的下一个状态；察的有限集合，表示为1 2Z { z , z ,...}。态转移函数，( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行动a后，系统转移到状态 s '的概率；察概率分布函数，( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行动a，随后在下一时刻t 转移到状态 s '后，能够得率分布函数可以用来模拟现实环境中的感知过程充满报函数，与 MDP 一样，Agent 在任意状态 s 执行一个里假设立即回报值是有界的，min maxR R R 。DP 框架可以用循环图表示，如图 2-4 所示。

【相似文献】