当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向CGF战术决策的蒙特卡洛树搜索方法研究

发布时间:2020-10-31 21:10
   计算机生成兵力(Computer Generated Forces,CGF)的行为建模一直是作战仿真技术中的重点和难点。在一些典型的CGF系统开发实践中,行为模型需要大量地依赖领域相关人员参与构建,以形成足够的领域知识驱动复杂行为。但是这些模型主要产生反应式行为,除了构建过程繁琐之外,也无法对人的高级认知活动(如态势感知、任务规划和推理决策等)进行有效表示。论文主要探索了将蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)应用于CGF战术决策的问题,意在实现能够使CGF在虚拟战场中表现出更具智能性的行为模型。MCTS本身是结合随机采样的最佳优先搜索,能够求解状态空间较大的问题。同时,其在推理过程中考虑了敌我双方的可能行动,在此基础上形成对不同方案的评估,这种方式非常适合分析类似作战这种存在动态对抗的环境。论文针对战场环境的特点,设计了基于Agent的CGF决策行为建模框架,在这个框架下,阐述了以MCTS为主要技术的推理决策构建过程。而本文工作在这个基本设定上进行,面向MCTS应用于CGF战术决策的具体问题,针对几项关键技术展开研究,形成本文的主要贡献和创新点,这里可以概括为四个方面:(1)提出一种分层任务网络规划(Hierarchical Task Network,HTN)引导的树搜索算法,通过HTN规划的结果限制MCTS的搜索空间、引导搜索过程,同时也利用MCTS的前向推理能力,对HTN中蕴含的领域知识进行探索,以此实现高质量的CGF实时决策。(2)提出一种基于信念的MCTS算法,以实现MCTS在信息不完备环境中的应用。相对基本的MCTS,主要对树模型结构进行了扩展,加入了历史观测值序列的元素,并且应用粒子滤波方法构建信念状态及其更新过程;最后在决策应用上,是通过对信念随机采样的确定化搜索,实现对不确定信息的推理。(3)提出一种基于Chebyshev度量的多目标MCTS算法,以实现MCTS在多目标环境设置下的应用。所提方法使用Chebyshev度量构建关于多优化目标的非线性标量和,以此影响MCTS的搜索过程以及最佳策略选定,可以针对复杂问题有效寻找最符合目标偏好设定的Pareto最优解,而无论问题的Pareto前端是否具有非凸区域。(4)提出一种基于Option框架的问题自动抽象方法,实现规划应用中的知识自动构建,可以使规划基于Option进行,从而提高效率。本文主要通过社团发现算法实现Option自动构建,并提出Option在应用场景中基于社团动态修正的在线优化方法。这些方法均通过基准对比试验证明了有效性,为在规模巨大问题中的应用奠定了一定的基础。论文最后总结了全文研究工作,并提出需要进一步完善的问题,展望了未来的研究方向。
【学位单位】:国防科技大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:E91;O225
【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景
    1.2 研究现状综述
        1.2.1 CGF行为建模方法
        1.2.2 蒙特卡洛树搜索方法
        1.2.3 研究现状总结与分析
    1.3 论文主要工作及研究意义
        1.3.1 论文的研究内容
        1.3.2 论文的研究意义
    1.4 论文组织结构
第二章 基于蒙特卡洛树搜索的决策行为框架
    2.1 CGF决策过程描述模型
        2.1.1 OODA环路
        2.1.2 认知主导的决策模型
    2.2 基于Agent的 CGF行为建模
        2.2.1 Agent与多Agent系统
        2.2.2 基于Agent的决策行为建模框架
    2.3 基于蒙特卡洛树搜索的决策过程构建
        2.3.1 蒙特卡洛树搜索
        2.3.2 CGF战术决策过程构建
    2.4 关键问题分析
        2.4.1 领域知识引导的树搜索方法
        2.4.2 部分可观条件下的树搜索方法
        2.4.3 多目标条件下的树搜索方法
        2.4.4 基于Option的问题自动抽象方法
    2.5 本章小结
第三章 基于HTN规划的蒙特卡洛树搜索
    3.1 引言
    3.2 预备知识
        3.2.1 HTN规划基本概念
        3.2.2 基于HTN的决策行为构建
    3.3 HTN规划引导的MCTS算法
        3.3.1 UCTCD算法
        3.3.2 HTN规划引导树搜索过程
    3.4 应用实例研究
        3.4.1 案例描述
        3.4.2 状态和行动抽象
        3.4.3 指挥员HTN构建
        3.4.4 试验及结果分析
    3.5 本章小结
第四章 基于信念状态的蒙特卡洛树搜索
    4.1 引言
        4.1.1 问题定义
        4.1.2 相关研究
    4.2 方法
        4.2.1 BS-UCTCD算法
        4.2.2 基于粒子滤波的信念更新
    4.3 应用案例研究
        4.3.1 想定描述
        4.3.2 试验与结果分析
    4.4 方法讨论
    4.5 本章小结
第五章 基于Chebyshev度量的多目标蒙特卡洛树搜索
    5.1 引言
    5.2 研究背景
        5.2.1 多目标优化问题
        5.2.2 相关工作
    5.3 方法
        5.3.1 树搜索中的Pareto存档机制
        5.3.2 基于Chebyshev度量的MO-MCTS
    5.4 基准问题测试
    5.5 应用案例研究
        5.5.1 指挥员AI设定
        5.5.2 试验与结果分析
    5.6 本章小结
第六章 基于Option的问题自动抽象
    6.1 引言
        6.1.1 问题定义
        6.1.2 相关工作
    6.2 预备知识
        6.2.1 强化学习
        6.2.2 Option框架
    6.3 基于社团发现的Option构建
        6.3.1 社团发现与Louvain算法
        6.3.2 从社团构建Option
    6.4 应用场景中的Option优化处理
        6.4.1 基于规则的社团修正
        6.4.2 社团动态修正下的Option应用
    6.5 试验验证
        6.5.1 基准问题测试
        6.5.2 增量式Option优化测试
    6.6 方法讨论
    6.7 本章小结
第七章 结论与展望
    7.1 论文工作总结
    7.2 未来工作展望
致谢
参考文献
作者在学期间取得的学术成果

【相似文献】

相关期刊论文 前10条

1 黄介农;宁根福;;追寻杂技走向艺术的梦——记宁根福荣获蒙特卡洛国际马戏节40周年“特殊贡献奖”[J];杂技与魔术;2016年02期

2 ;第39届蒙特卡洛国际马戏节金奖节目一览[J];杂技与魔术;2015年02期

3 ;世界赛车赛历[J];汽车之友;2017年04期

4 雷宏伟;尹博崴;;别瞧不起“乡下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家试驾[J];汽车之友;2017年12期

5 晓天;;MINI JOHN COOPER WORKS GP CONCEPT 战斗版MINI[J];汽车知识;2017年10期

6 宓鲁;;弹指挥间二十年(五)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年06期

7 宓鲁;;弹指挥间二十年(三)——我与蒙特卡洛国际马戏节的交往[J];杂技与魔术;2013年04期

8 王峰;;骄人的蒙特卡洛国际马戏节[J];杂技与魔术;1999年02期

9 ;第23届蒙特卡洛国际马戏节外国节目风彩[J];杂技与魔术;1999年02期

10 黄五群;陈天崙;钟朝武;李志兵;;二维三角点阵的蒙特卡洛重整化群研究[J];高能物理与核物理;1987年01期


相关博士学位论文 前10条

1 许霄;面向CGF战术决策的蒙特卡洛树搜索方法研究[D];国防科技大学;2018年

2 朱娟;蒙特卡洛滤波算法在目标跟踪中的应用[D];中国科学院研究生院(长春光学精密机械与物理研究所);2010年

3 徐栎;面向可靠性的含分布式电源配电系统相关问题研究[D];天津大学;2015年

4 张和喜;贵州区域干旱演变特征及预测模型研究[D];沈阳农业大学;2013年

5 黎静;基于解析蒙特卡洛方法的载波调制水下激光通信研究[D];华中科技大学;2013年

6 柏爱俊;基于马尔科夫理论的不确定性规划和感知问题研究[D];中国科学技术大学;2014年

7 王越;基于交叉熵理论的电力系统短期可靠性评估[D];浙江大学;2014年

8 侯恺;电力系统可靠性评估方法改进与应用研究[D];天津大学;2016年

9 石博雅;牙齿与皮肤组织光学相干层析成像建模及应用研究[D];天津大学;2014年

10 蓝帆;片上网络的系统可工作性建模、仿真与加速[D];浙江大学;2016年


相关硕士学位论文 前10条

1 符天凡;基于聚类的随机梯度马尔科夫链蒙特卡洛算法[D];上海交通大学;2018年

2 靳康萌;考虑风电出力和负荷不确定性的电—气综合能源系统概率能流算法研究[D];北京交通大学;2019年

3 李永飞;基于机器学习的空管冲突识别与调配技术研究[D];南京航空航天大学;2019年

4 王振宇;围棋自对弈系统在高性能运算集群上的构建与实现[D];北京邮电大学;2019年

5 林云川;基于深度学习和蒙特卡洛树搜索的围棋博弈研究[D];哈尔滨工业大学;2018年

6 何丽丽;束缚条件下氢同位素分子的量子蒙特卡洛研究[D];吉林大学;2018年

7 马全海;基于序贯蒙特卡洛的概率假设密度滤波算法研究[D];西安工程大学;2017年

8 刘爽;信息的价值在马尔可夫决策理论下的应用[D];电子科技大学;2018年

9 李杨;基于蒙特卡洛模拟与仿生算法的微电网收益优化研究[D];北京交通大学;2017年

10 周进;面向博物馆的高真实感展示技术研究[D];浙江大学;2017年



本文编号:2864512

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2864512.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c6b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com