基于知识与树搜索的非完备信息博弈决策的研究与应用
发布时间:2022-07-14 21:05
人类生活中有利益冲突的地方就会有博弈,而现实生活中大多数博弈问题都属于非完备信息博弈,例如金融交易、军事博弈、政治谈判、棋牌游戏等,因此对相关问题的研究具有极大的经济价值和现实意义。非完备信息博弈由于信息不对称的特点,复杂的博弈背景导致决策节点数目呈指数级增长,传统的人工智能方法难以直接应用到非完备信息博弈中。针对以上问题,本文提出了使用对手建模和改进树搜索算法来解决非完备信息博弈问题,并将其应用到四人竞技麻将博弈中。本文的主要工作和创新点如下:1.结合知识和蒙特卡洛模拟方法构建对手模型来预测隐藏信息,并将其转化为相对概率。非完备信息博弈中存在巨大的隐藏信息,只依赖于可见信息可能导致较大的偏差,本文通过蒙特卡洛方法对每位对手的手牌进行模拟,结合时序信息、历史信息和相关领域知识设计了手牌的分配度计算方法,使模拟结果更加符合现实场景,最后将模拟结果转化为每张牌的获取概率和危险度表,为后续相关权重的计算提供重要帮助。2.根据麻将博弈的规则特点,设计了改进的树搜索算法用于探索获胜路径。首先,在分析博弈机理的基础上,简化了博弈模式,将搜索对象转化为手牌的更新过程。然后,使用了启发式信息设计了手牌...
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究目的与意义
1.3 国内外研究现状
1.4 本文研究内容
1.5 本文章节结构
第2章 非完备信息计算机博弈
2.1 计算机博弈概述
2.2 博弈树与搜索
2.2.1 启发式评估算法
2.2.2 极小化极大评估
2.2.3 具有Alpha-Beta剪枝的极小化极大算法
2.3 反事实遗憾最小化算法
2.4 基于深度、强化学习的博弈方法
2.4.1 深度学习
2.4.2 强化学习
2.5 本章小结
第3章 基于知识与树搜索的非完备信息博弈决策方法
3.1 非完备信息博弈框架
3.1.1 非完备信息博弈要素分析
3.1.2 非完备信息博弈框架设计
3.2 局势分析
3.3 对手建模
3.4 改进的树搜索算法
3.4.1 模式简化
3.4.2 启发式信息的生成
3.4.3 搜索策略
3.5 评估与决策
3.5.1 获胜概率估计
3.5.2 得分检测
3.5.3 风险评估
3.5.4 路径期望值评估
3.5.5 决策
3.6 本章小结
第4章 基于知识与树搜索的非完备信息博弈决策的实验与分析
4.1 实验环境、实验程序与参数
4.2 实验结果与分析
4.2.1 搜索树算法评估
4.2.2 对手建模评估
4.3 Computer Olympiad 2019麻将锦标赛的比赛结果及分析
4.4 本章小结
第5章 非完备信息博弈(竞技麻将)智能决策系统与测试平台
5.1 竞技麻将智能决策系统
5.2 非完备信息博弈测试平台
5.3 本章小结
第6章 结论与展望
6.1 总结
6.2 展望
致谢
参考文献
附录A 四人竞技麻将规则与术语
攻读学位期间的研究成果
【参考文献】:
期刊论文
[1]基于手牌预测的多人无限注德州扑克博弈方法[J]. 李翔,姜晓红,陈英芝,包友军. 计算机学报. 2018(01)
[2]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[3]计算机博弈的研究与发展[J]. 王亚杰,邱虹坤,吴燕燕,李飞,杨周凤. 智能系统学报. 2016(06)
博士论文
[1]非完备信息机器博弈中风险及对手模型的研究[D]. 张加佳.哈尔滨工业大学 2015
硕士论文
[1]基于深度强化学习的非完备信息机器博弈研究[D]. 王鹏程.哈尔滨工业大学 2017
[2]基于Q学习算法的非完备信息机器博弈的研究[D]. 李昌.哈尔滨工业大学 2015
本文编号:3661873
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景
1.2 研究目的与意义
1.3 国内外研究现状
1.4 本文研究内容
1.5 本文章节结构
第2章 非完备信息计算机博弈
2.1 计算机博弈概述
2.2 博弈树与搜索
2.2.1 启发式评估算法
2.2.2 极小化极大评估
2.2.3 具有Alpha-Beta剪枝的极小化极大算法
2.3 反事实遗憾最小化算法
2.4 基于深度、强化学习的博弈方法
2.4.1 深度学习
2.4.2 强化学习
2.5 本章小结
第3章 基于知识与树搜索的非完备信息博弈决策方法
3.1 非完备信息博弈框架
3.1.1 非完备信息博弈要素分析
3.1.2 非完备信息博弈框架设计
3.2 局势分析
3.3 对手建模
3.4 改进的树搜索算法
3.4.1 模式简化
3.4.2 启发式信息的生成
3.4.3 搜索策略
3.5 评估与决策
3.5.1 获胜概率估计
3.5.2 得分检测
3.5.3 风险评估
3.5.4 路径期望值评估
3.5.5 决策
3.6 本章小结
第4章 基于知识与树搜索的非完备信息博弈决策的实验与分析
4.1 实验环境、实验程序与参数
4.2 实验结果与分析
4.2.1 搜索树算法评估
4.2.2 对手建模评估
4.3 Computer Olympiad 2019麻将锦标赛的比赛结果及分析
4.4 本章小结
第5章 非完备信息博弈(竞技麻将)智能决策系统与测试平台
5.1 竞技麻将智能决策系统
5.2 非完备信息博弈测试平台
5.3 本章小结
第6章 结论与展望
6.1 总结
6.2 展望
致谢
参考文献
附录A 四人竞技麻将规则与术语
攻读学位期间的研究成果
【参考文献】:
期刊论文
[1]基于手牌预测的多人无限注德州扑克博弈方法[J]. 李翔,姜晓红,陈英芝,包友军. 计算机学报. 2018(01)
[2]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[3]计算机博弈的研究与发展[J]. 王亚杰,邱虹坤,吴燕燕,李飞,杨周凤. 智能系统学报. 2016(06)
博士论文
[1]非完备信息机器博弈中风险及对手模型的研究[D]. 张加佳.哈尔滨工业大学 2015
硕士论文
[1]基于深度强化学习的非完备信息机器博弈研究[D]. 王鹏程.哈尔滨工业大学 2017
[2]基于Q学习算法的非完备信息机器博弈的研究[D]. 李昌.哈尔滨工业大学 2015
本文编号:3661873
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3661873.html