基于深度强化学习的中医序贯诊疗方案优化方法研究
发布时间:2021-08-03 07:25
序贯诊疗是慢性疾病临床诊断与治疗主要方法,包括多阶段的临床诊疗决策过程,是一种复杂的决策优化问题。鉴于中医处方的复杂性和个体性,针对慢性疾病的中医诊疗过程包含迭代式的四诊信息采集、疾病状态或诊断判别和处方决策等主要环节,更是一种典型的复杂序贯诊疗过程。因此,进行有效中医序贯诊疗方案的发现和智能应用是中医临床人工智能的核心问题,但由于该问题的计算复杂性和对完整闭环数据的要求,以往中医临床数据挖掘研究很少涉及该方面的研究。随着高质量中医临床数据的积累和近年来强化学习方法(特别是深度强化学习)的快速发展,开展基于强化学习的中医序贯诊疗方案优化成为可能。本文提出了一种基于深度强化学习方法的中医序贯诊疗方案优化模型(AlphaPrescriber),该模型能够实现根据观察得到的患者症状体征信息,进行处方推荐,动态形成优化的中医序贯诊疗方案,为中医个体化处方推荐的人工智能应用提供基础。主要研究工作包括以下几个方面:首先,结合中医诊疗过程中缺乏自然存在的强化学习“环境”问题,提出HH深度中医治疗人工环境模型(HU HE Deep TCM Treatment Artificial Environmen...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
图2-3机器学习的分类??
1以是一组有限的状态;??2>4是一组有限的行为(或者^^是该状态下可使用的有限的一组行动);??3)Ps〇,s')?=?Pr(st+i?=?s|st?=?s,?at?=?a)是由行动a导致的一个状态转移概智能体在时间/的状态是^在行动a之后,会在时间/+1到达状态s'的概4)/?a(s,s')是在状态转移后得到的直接奖励(或期望的直接奖励);??5)y?e?[0,1]是折现系数,体现未来奖励与直接奖励在现值上的差异。??强化学习以如图2-5所示的方式转换为马尔科夫决策过程。假设模型中的,身处某个环境中(例如《打砖块》游戏)。这个环境处于某个特定的状态(例拍的位置、球的位置与方向,每个砖块存在与否)。智能体可以在这个环境某些特定的动作(例如,向左或向右移动拍子)。这些动作有时候会带来奖励(上升)。行为改变环境,并带来新的状态,智能体可以再执行另一个动作。作的规则(或者顺序)被称为策略。通常来说,环境在一定程度上是随机的,着下一状态也是随机的(例如,当球拍漏接了球,球拍再次发射一个球,它随机的方向)。总之,状态与动作的集合,以及改变状态的规则,共同组成马尔可夫决策过程。??
在简化版的误差曲线中,能迅速找到唯一的误差最小时的V。然而实际情况??中,有很多误差曲线都呈水平状态。不同的取初始化的位置,将会带来不同的下??降区域,从而带来不同的F解。如图2-7所示,PF的全局最优解(Global?minima)??在最低位置,而其它的解是局部最优(Localminima)。全局最优解是理想的求解目??标,然而很多时候,得到的是局部最优解,这也无可避免。尽管如此,虽然不是全??局最优,但是神经网络也能使局部最优解足够优秀,以至于也能出色的完成的指定??的任务%。??cost??W??图2-7?cost函数曲线2??Figure?2-7?Cost?function?curve?2??17??
【参考文献】:
期刊论文
[1]关于在“最优化方法”中引入智能优化算法的思考[J]. 孙靖,查明明. 科教文汇(上旬刊). 2018(10)
[2]近5年腰椎间盘突出症的中医治疗综述[J]. 王凤德,吕计宝,韦英才. 中医外治杂志. 2018(02)
[3]主流深度学习框架对比[J]. 加日拉·买买提热衣木,常富蓉,刘晨,要秀宏. 电子技术与软件工程. 2018(07)
[4]基于云推理模型的深度强化学习探索策略研究[J]. 李晨溪,曹雷,陈希亮,张永亮,徐志雄,彭辉,段理文. 电子与信息学报. 2018(01)
[5]双人博弈问题中的蒙特卡洛树搜索算法的改进[J]. 季辉,丁泽军. 计算机科学. 2018(01)
[6]一种基于深度强化学习的调度优化方法[J]. 邓志龙,张琦玮,曹皓,谷志阳. 西北工业大学学报. 2017(06)
[7]卷积神经网络概述[J]. 侯宇昆. 中国新通信. 2017(09)
[8]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[9]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[10]基于强化学习的汇流瓶颈区可变限速策略研究[J]. 段荟,刘攀,李志斌,汤斗南. 交通运输系统工程与信息. 2015(01)
博士论文
[1]POMDP近似解法研究及在中医诊疗方案优化中的应用[D]. 冯奇.北京交通大学 2011
硕士论文
[1]基于深度强化学习的股市投资模型构建及实证研究[D]. 满奇.广东财经大学 2017
[2]一种生产销售系统的生产及库存控制优化研究[D]. 宋聪颖.合肥工业大学 2017
[3]基于动机的强化学习及其应用研究[D]. 鲁成祥.曲阜师范大学 2016
[4]基于强化学习的电子销售市场动态定价研究[D]. 王金田.合肥工业大学 2009
本文编号:3319217
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
图2-3机器学习的分类??
1以是一组有限的状态;??2>4是一组有限的行为(或者^^是该状态下可使用的有限的一组行动);??3)Ps〇,s')?=?Pr(st+i?=?s|st?=?s,?at?=?a)是由行动a导致的一个状态转移概智能体在时间/的状态是^在行动a之后,会在时间/+1到达状态s'的概4)/?a(s,s')是在状态转移后得到的直接奖励(或期望的直接奖励);??5)y?e?[0,1]是折现系数,体现未来奖励与直接奖励在现值上的差异。??强化学习以如图2-5所示的方式转换为马尔科夫决策过程。假设模型中的,身处某个环境中(例如《打砖块》游戏)。这个环境处于某个特定的状态(例拍的位置、球的位置与方向,每个砖块存在与否)。智能体可以在这个环境某些特定的动作(例如,向左或向右移动拍子)。这些动作有时候会带来奖励(上升)。行为改变环境,并带来新的状态,智能体可以再执行另一个动作。作的规则(或者顺序)被称为策略。通常来说,环境在一定程度上是随机的,着下一状态也是随机的(例如,当球拍漏接了球,球拍再次发射一个球,它随机的方向)。总之,状态与动作的集合,以及改变状态的规则,共同组成马尔可夫决策过程。??
在简化版的误差曲线中,能迅速找到唯一的误差最小时的V。然而实际情况??中,有很多误差曲线都呈水平状态。不同的取初始化的位置,将会带来不同的下??降区域,从而带来不同的F解。如图2-7所示,PF的全局最优解(Global?minima)??在最低位置,而其它的解是局部最优(Localminima)。全局最优解是理想的求解目??标,然而很多时候,得到的是局部最优解,这也无可避免。尽管如此,虽然不是全??局最优,但是神经网络也能使局部最优解足够优秀,以至于也能出色的完成的指定??的任务%。??cost??W??图2-7?cost函数曲线2??Figure?2-7?Cost?function?curve?2??17??
【参考文献】:
期刊论文
[1]关于在“最优化方法”中引入智能优化算法的思考[J]. 孙靖,查明明. 科教文汇(上旬刊). 2018(10)
[2]近5年腰椎间盘突出症的中医治疗综述[J]. 王凤德,吕计宝,韦英才. 中医外治杂志. 2018(02)
[3]主流深度学习框架对比[J]. 加日拉·买买提热衣木,常富蓉,刘晨,要秀宏. 电子技术与软件工程. 2018(07)
[4]基于云推理模型的深度强化学习探索策略研究[J]. 李晨溪,曹雷,陈希亮,张永亮,徐志雄,彭辉,段理文. 电子与信息学报. 2018(01)
[5]双人博弈问题中的蒙特卡洛树搜索算法的改进[J]. 季辉,丁泽军. 计算机科学. 2018(01)
[6]一种基于深度强化学习的调度优化方法[J]. 邓志龙,张琦玮,曹皓,谷志阳. 西北工业大学学报. 2017(06)
[7]卷积神经网络概述[J]. 侯宇昆. 中国新通信. 2017(09)
[8]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进. 计算机学报. 2018(01)
[9]深度强化学习综述:兼论计算机围棋的发展[J]. 赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红. 控制理论与应用. 2016(06)
[10]基于强化学习的汇流瓶颈区可变限速策略研究[J]. 段荟,刘攀,李志斌,汤斗南. 交通运输系统工程与信息. 2015(01)
博士论文
[1]POMDP近似解法研究及在中医诊疗方案优化中的应用[D]. 冯奇.北京交通大学 2011
硕士论文
[1]基于深度强化学习的股市投资模型构建及实证研究[D]. 满奇.广东财经大学 2017
[2]一种生产销售系统的生产及库存控制优化研究[D]. 宋聪颖.合肥工业大学 2017
[3]基于动机的强化学习及其应用研究[D]. 鲁成祥.曲阜师范大学 2016
[4]基于强化学习的电子销售市场动态定价研究[D]. 王金田.合肥工业大学 2009
本文编号:3319217
本文链接:https://www.wllwen.com/zhongyixuelunwen/3319217.html
最近更新
教材专著