当前位置:主页 > 医学论文 > 医卫管理论文 >

基于主动学习和半监督学习方法的医疗实体及其修饰识别研究

发布时间:2020-12-02 12:39
  随着医疗信息化进程的推进,中文电子病历数据的数量迅速增加。对中文电子病历中医疗命名实体及其修饰的识别研究,可以为医疗产业的人工智能研究奠定基础。但是中文电子病历领域缺乏传统监督学习方法所需要大规模标注数据,而开展大规模标注工作的成本又相对较高,因此本课题基于主动学习方法与半监督学习方法,研究对中文电子病历实体及修饰的识别。本文的研究主要围绕三个方面:(1)基于传统监督学习方法的中文电子病历实体及其修饰识别。基于已标注的小规模数据,提取文本特征,训练出基于条件随机场算法的实体识别模型和基于支持向量机算法的实体修饰分类模型。(2)基于主动学习方法的中文电子病历实体与实体修饰识别。在每次迭代训练前,主动学习方法会选择现有模型中未充分训练的数据扩充训练集,从而达到利用少量标注数据、训练出较高性能模型的目的。传统的主动学习方法只关注数据本身信息量(不确定性),而忽略了该数据是否为样本中的孤立点,针对该问题,本文从电子病历的数据特点出发,提出基于分布度对不确定性加权的主动学习选择优化策略,从而降低样本中孤立点被选出的概率。对比实验证明,该策略相较于原有的基于不确定性的主动学习方法,效果有所提升。(... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

基于主动学习和半监督学习方法的医疗实体及其修饰识别研究


基于字/词的中文电子病历主动学习模型F值对照图2-1中模型训练结果显示,以794份病历作为训练数据,以字为token

示意图,主动学习,流程,示意图


哈尔滨工业大学工学硕士学位论文 主动学习在医疗实体及其修饰识别中 992 份电子病历标注语料已经具备相当规模,但是由于数因此对其他来源的数据识别效果不佳。对于特定来源的医学习训练实体及修饰识别模型,仍然需要相当数量的标注本的专业性较强,需要医学专业人士参与标注,而进行专间成本较高,标注工作开展困难,进而导致实体识别监督到制约,进而妨碍了电子病历中关系抽取、逻辑推理等高与随机选择样本并利用传统机器学习方法进行训练的被动通过选取出信息量较大的训练数据,在训练集较小的情况训练效果。

电子病历,评价曲线,中文,实体


哈尔滨工业大学工学硕士学位论文始数据,训练出初始模型0。随后将新生成的模型应用到未标注数 U,利用模型对 U 的标注结果,计算出文档的 rank 值,抽取出 rank 值的 3 份文档加入标注集 L 中进行训练,训练出模型 。重复以上应型、选择数据、训练模型三个步骤,直至已标注文档的数目大于等于于 th。对照实验分别利用随机选择、基于熵、基于分布度对熵加权(权重μ =选择策略选取训练数据,实验结果如图 3-2 所示:

【参考文献】:
期刊论文
[1]基于多特征融合的中文电子病历命名实体识别[J]. 张祥伟,李智.  软件导刊. 2017(02)
[2]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.  软件学报. 2016(11)
[3]中文电子病历命名实体标注语料库构建[J]. 曲春燕,关毅,杨锦锋,赵永杰,刘雅欣.  高技术通讯. 2015 (02)
[4]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏.  自动化学报. 2014(08)
[5]面向中文电子病历的词法语料标注研究[J]. 蒋志鹏,赵芳芳,关毅,杨锦锋.  高技术通讯. 2014 (06)
[6]基于堆积策略的电子病历实体识别[J]. 邓本洋,吕新波,关毅.  智能计算机与应用. 2014(01)
[7]基于层叠条件随机场的中文病历命名实体识别[J]. 燕杨,文敦伟,王云吉,王珂.  吉林大学学报(工学版). 2014(06)

硕士论文
[1]中文电子病历命名实体识别研究[D]. 曲春燕.哈尔滨工业大学 2015
[2]基于半监督学习的中文电子病历分词和名实体挖掘[D]. 张立邦.哈尔滨工业大学 2014



本文编号:2895323

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2895323.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3f198***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com