基于中文电子病历文本的医学语义网络构建方法研究
发布时间:2021-06-28 13:29
随着医疗信息化以及计算机硬件的发展,电子病历在我国得到了极大的普及,因此每天产生的电子病历数据爆发式增长,但是电子病历中的文本数据难以结构化从而得到二次利用,电子病历文本挖掘是现在很多学者的研究点,主要集中在电子病历命名实体识别和电子病历实体关系抽取这两个研究任务。英文领域的电子病历文本挖掘已经有了丰硕的成果,国内的研究还处于起步阶段。这是因为(1)缺乏规范统一的专业术语库,电子病历文本中的术语没有标准化,国外成熟的知识库无法对中文领域电子病历文本研究做直接指导;(2)语料匮乏,缺少公开的标注语料以及标注规范,并且电子病历文本具有高度专业性特点,普通人难以识别其中的实体及关系,严重限制了中文电子病历文本挖掘的研究。基于此,文本研究基于中文电子病历文本的命名实体识别和实体关系抽取的方法,从而构建基于中文电子病历文本的医学语义网络。主要工作包括以下几个方面:本文首先分析中文电子病历的数据结构特点和语言特点,提出基于元数据的数据清洗模型。针对电子病历中术语不统一问题,自行标注特定疾病的小部分语料,使用条件随机域(Conditional random fields,CRFs)模型并引入词典实现...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图1-1技术路线图??Fig.?1-1?Technology?Roadmap??
的后面第2行第2列的特征;二元特征°/<?[-1,1]/%\[0,1]即为当前观察字符的前1??行第2列与当前行第2列的综合特征;三元特征%x[-2,l]/%x[-l,l]/%[0,l]表示当前??行与当前1行及前两行的第2列的综合特征。最终设计的特征模板如图3-3所示。??1?#?Unigrara??2?U00:%x[-2,0]??3?U01:%x[-l,0]??4?U02:%x[0,0]??5?U03:%x[l,〇3??#牐眨埃矗海ィ?郏玻?埃荩崳?7?U〇5:%x[-2,0]/%x[-l/0]??8?U06:%x[-lf0]/%x[0,0]??§?U07:%x[0,0]/%x[l,0]??丄?0?U08:%x[l
??其余药品名称均标注M。标注不例见图3-5。??!.H?N?B??现?N?E??胸?CS?B??闷?CS?E??、?PUNC?0??愁?CS?B??’乂?CS?E??,?PUNC?0??诊?N?B??断?N?E??'M?N?S??冠?D?B??心?D?M??病?D?M??心?D?M??绞?D?M??痛?D?E??,?PUNC?0??II?N?B??N?E??消?M?B??心?M?M??痛?M?E??图3-5语料标注示例样本??Fig.?3-5?Samples?of?Corpus?Annotation??3.4.2实验结果??按照3.3.3中的步骤进行模型训练,之后使用训练好的模型在测试集上进行测??试,就获得了测试集中每个字符的语义属性和位置属性,结合两者将字拼接成词语??并赋予语义含义。分别按照实体识别属性计算其准确率P、召回率R和F,实验结??果见表3-7。??表3-7命名实体识别实验结果??Table?3-7?Experimental?Results?of?Na
【参考文献】:
期刊论文
[1]中文电子病历中的时间关系识别[J]. 孙健,高大启,阮彤,殷亦超,高炬,王祺. 计算机应用. 2018(03)
[2]基于COAE2016数据集的中文实体关系抽取算法研究[J]. 孙建东,顾秀森,李彦,徐蔚然. 山东大学学报(理学版). 2017(09)
[3]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬. 计算机应用研究. 2018(04)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
[5]基于支持向量机的生物医学文献蛋白质关系抽取[J]. 杨志豪,洪莉,林鸿飞,李彦鹏. 智能系统学报. 2008(04)
博士论文
[1]基于条件随机场的医学文本与图像标注模型构建及应用研究[D]. 燕杨.吉林大学 2015
硕士论文
[1]基于卷积神经网络的新闻文本分类问题研究[D]. 齐凯凡.西安理工大学 2018
[2]基于深度学习的文本情感分析[D]. 崔伟健.吉林大学 2018
[3]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
本文编号:3254408
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图1-1技术路线图??Fig.?1-1?Technology?Roadmap??
的后面第2行第2列的特征;二元特征°/<?[-1,1]/%\[0,1]即为当前观察字符的前1??行第2列与当前行第2列的综合特征;三元特征%x[-2,l]/%x[-l,l]/%[0,l]表示当前??行与当前1行及前两行的第2列的综合特征。最终设计的特征模板如图3-3所示。??1?#?Unigrara??2?U00:%x[-2,0]??3?U01:%x[-l,0]??4?U02:%x[0,0]??5?U03:%x[l,〇3??#牐眨埃矗海ィ?郏玻?埃荩崳?7?U〇5:%x[-2,0]/%x[-l/0]??8?U06:%x[-lf0]/%x[0,0]??§?U07:%x[0,0]/%x[l,0]??丄?0?U08:%x[l
??其余药品名称均标注M。标注不例见图3-5。??!.H?N?B??现?N?E??胸?CS?B??闷?CS?E??、?PUNC?0??愁?CS?B??’乂?CS?E??,?PUNC?0??诊?N?B??断?N?E??'M?N?S??冠?D?B??心?D?M??病?D?M??心?D?M??绞?D?M??痛?D?E??,?PUNC?0??II?N?B??N?E??消?M?B??心?M?M??痛?M?E??图3-5语料标注示例样本??Fig.?3-5?Samples?of?Corpus?Annotation??3.4.2实验结果??按照3.3.3中的步骤进行模型训练,之后使用训练好的模型在测试集上进行测??试,就获得了测试集中每个字符的语义属性和位置属性,结合两者将字拼接成词语??并赋予语义含义。分别按照实体识别属性计算其准确率P、召回率R和F,实验结??果见表3-7。??表3-7命名实体识别实验结果??Table?3-7?Experimental?Results?of?Na
【参考文献】:
期刊论文
[1]中文电子病历中的时间关系识别[J]. 孙健,高大启,阮彤,殷亦超,高炬,王祺. 计算机应用. 2018(03)
[2]基于COAE2016数据集的中文实体关系抽取算法研究[J]. 孙建东,顾秀森,李彦,徐蔚然. 山东大学学报(理学版). 2017(09)
[3]基于CP-CNN的中文短文本分类研究[J]. 余本功,张连彬. 计算机应用研究. 2018(04)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹. 中国生物医学工程学报. 2011(02)
[5]基于支持向量机的生物医学文献蛋白质关系抽取[J]. 杨志豪,洪莉,林鸿飞,李彦鹏. 智能系统学报. 2008(04)
博士论文
[1]基于条件随机场的医学文本与图像标注模型构建及应用研究[D]. 燕杨.吉林大学 2015
硕士论文
[1]基于卷积神经网络的新闻文本分类问题研究[D]. 齐凯凡.西安理工大学 2018
[2]基于深度学习的文本情感分析[D]. 崔伟健.吉林大学 2018
[3]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
本文编号:3254408
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3254408.html