非结构化医学病历信息抽取的方法研究
发布时间:2021-12-31 16:08
医疗领域的数字信息化在科技与大数据的发展中正在不断被推动进步着。它的运营模式愈发转向电子病历,并以电子病历作为重要的信息资源,结合先进技术进一步挖掘探索,使得我国医疗事业不断完善。这些医学病历记录了病人在就诊期间的详细记录,涵盖了丰富的医学知识,可以给病人或医生提供查询及决策支持,也给之后进一步的医学研究奠定了数据基础。但是经调研,约80%的医学病历是处于非结构化状态的,难以直接被利用而造成了大量医学资源浪费。为了解决这样的问题,本文就医学病历非结构化的特点,对其进行信息抽取方法的研究,主要分为以下三个方面:(1)运用自然语言处理(Natural Language Processing,NLP)技术,提出一种基于逻辑标注策略的实体与关系联合抽取的方法完成信息抽取任务。通过几种常用序列标注模型的对比结果,确定本次研究所使用的模型为基于逻辑标注策略的Bi-LSTM-CRF。在600份医学病历、41类标签的情况下得到的F1 score为76%。在完成实体与关系的联合抽取后,最终基本实现了医学病历文本知识从非结构化到具有逻辑推理结构化的转变。(2)运用Neo4j图数据库存储抽取的信息,采用图表...
【文章来源】:华侨大学福建省
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
展示了一般的医学病历信息抽取及其应用的一般流程
第2章信息抽取相关技术15图2.1医学病历信息抽取三个任务及其关系2.3命名实体识别方法命名实体识别的方法研究是NLP中最基本任务之一,很多后续的研究都是在它的基础上建立的,例如:关系抽取任务、依存句法分析任务等。如图2.2所示,实体识别是在一段自然文本中找出相关实体,并标注出其位置及类型。以本课题研究的医学领域里命名实体识别为例,展示了实验室化验、健康管理建议、疾并治疗方案、实体修饰所遇到的五类实体识别效果图。基于规则、统计学和神经网络的方法是实体识别三大类研究方向。
华侨大学硕士学位论文16图2.2命名实体识别效果图2.3.1基于规则的方法在命名实体识别研究初期,最主流的算法应该是基于规则的方法。在此期间的第7次消息理解会议(MUC-7),出现了一些测试命名实体识别效果的系统,这些系统大部分都是基于规则的算法实现的,例如:NetOwl系统[63],Lasie-II系统[64]、NYU系统[65]等。采用基于规则的方法进行命名实体识别,大多数是需要人工构建不同规则达到匹配识别效果。起初,在没有大规模标注语料的时候,实体识别只能通过这种方法来进行识别,也取得了较好的结果。基于规则的方法最关键的是规则的制定,并用这种制定的规则进行知识抽龋制定规则一般来说是将常见的人名、地名、组织名等研究领域的实体用来构建可用的词典,来识别词典中未出现过的实体。例如:人名:“姓氏”+“名字”;地名:“地名”+“地名指示词”;组织名:“组织名”+“特征词”。基于规则的方法优势在于善于捕捉规则对实体的语义影响,生成的语言模型能够清楚表达很多语言事实;其次,它的方向不受约束,既能够用于分析也可用于生成;另外,基于规则的方法还善于解决深层次的语言问题以及长距离的依存关系,效率很高。但是,由于它依赖于领域内专家进行配合对规则进行制定,工作量大,鲁棒性也比较差,很难跨领域发展。
【参考文献】:
期刊论文
[1]基于Python语言的中文分词技术的研究[J]. 祝永志,荆静. 通信技术. 2019(07)
[2]BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究[J]. 王若佳,魏思仪,王继民. 文献与数据学报. 2019(02)
[3]我国数字化医疗技术体系基本框架研究[J]. 任宇飞,奈存剑,庹兵兵,熊梦园. 中国医院管理. 2018(11)
[4]医学百科知识图谱构建[J]. 刘燕,傅智杰,李姣,侯丽. 中华医学图书情报杂志. 2018(06)
[5]基于多特征融合的中文电子病历命名实体识别[J]. 于楠,王普,翁壮,方丽英. 北京生物医学工程. 2018(03)
[6]大数据时代认知医疗的数据安全伦理透视——以IBM Watson Health为例[J]. 尤晋泽,林岩. 医学与哲学(A). 2018(03)
[7]面向领域文献的无监督中文分词自动优化方法[J]. 倪维健,孙浩浩,刘彤,曾庆田. 数据分析与知识发现. 2018(02)
[8]基于CRF与规则相结合的中文电子病历命名实体识别研究[J]. 翟菊叶,陈春燕,张钰,陈玉娥,刘玉文. 包头医学院学报. 2017(11)
[9]医学知识图谱构建技术与研究进展[J]. 袁凯琦,邓扬,陈道源,张冰,雷凯. 计算机应用研究. 2018(07)
[10]基于NLPIR汉语分词系统和BFSU PowerConc 1.0的警务汉语词频与搭配研究——以禁毒案件为例[J]. 孙琳. 现代语文(语言研究版). 2016(12)
博士论文
[1]电子病历文本挖掘关键算法研究[D]. 栗伟.东北大学 2014
硕士论文
[1]基于本体的中文医疗知识库及知识管理系统的构建[D]. 孔德华.清华大学 2017
[2]基于Neo4j图数据库的社交网络数据的研究与应用[D]. 张凤军.湖南大学 2016
[3]基于DBpedia的材料知识抽取系统设计与实现[D]. 李欣.河北科技大学 2015
[4]生物医学文本中的疾病实体识别和标准化研究[D]. 杨娅.大连理工大学 2015
[5]Web中文信息抽取中命名实体识别的研究及应用[D]. 刘杰.西北大学 2009
[6]基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究[D]. 唐霄.西南大学 2008
本文编号:3560561
【文章来源】:华侨大学福建省
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
展示了一般的医学病历信息抽取及其应用的一般流程
第2章信息抽取相关技术15图2.1医学病历信息抽取三个任务及其关系2.3命名实体识别方法命名实体识别的方法研究是NLP中最基本任务之一,很多后续的研究都是在它的基础上建立的,例如:关系抽取任务、依存句法分析任务等。如图2.2所示,实体识别是在一段自然文本中找出相关实体,并标注出其位置及类型。以本课题研究的医学领域里命名实体识别为例,展示了实验室化验、健康管理建议、疾并治疗方案、实体修饰所遇到的五类实体识别效果图。基于规则、统计学和神经网络的方法是实体识别三大类研究方向。
华侨大学硕士学位论文16图2.2命名实体识别效果图2.3.1基于规则的方法在命名实体识别研究初期,最主流的算法应该是基于规则的方法。在此期间的第7次消息理解会议(MUC-7),出现了一些测试命名实体识别效果的系统,这些系统大部分都是基于规则的算法实现的,例如:NetOwl系统[63],Lasie-II系统[64]、NYU系统[65]等。采用基于规则的方法进行命名实体识别,大多数是需要人工构建不同规则达到匹配识别效果。起初,在没有大规模标注语料的时候,实体识别只能通过这种方法来进行识别,也取得了较好的结果。基于规则的方法最关键的是规则的制定,并用这种制定的规则进行知识抽龋制定规则一般来说是将常见的人名、地名、组织名等研究领域的实体用来构建可用的词典,来识别词典中未出现过的实体。例如:人名:“姓氏”+“名字”;地名:“地名”+“地名指示词”;组织名:“组织名”+“特征词”。基于规则的方法优势在于善于捕捉规则对实体的语义影响,生成的语言模型能够清楚表达很多语言事实;其次,它的方向不受约束,既能够用于分析也可用于生成;另外,基于规则的方法还善于解决深层次的语言问题以及长距离的依存关系,效率很高。但是,由于它依赖于领域内专家进行配合对规则进行制定,工作量大,鲁棒性也比较差,很难跨领域发展。
【参考文献】:
期刊论文
[1]基于Python语言的中文分词技术的研究[J]. 祝永志,荆静. 通信技术. 2019(07)
[2]BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究[J]. 王若佳,魏思仪,王继民. 文献与数据学报. 2019(02)
[3]我国数字化医疗技术体系基本框架研究[J]. 任宇飞,奈存剑,庹兵兵,熊梦园. 中国医院管理. 2018(11)
[4]医学百科知识图谱构建[J]. 刘燕,傅智杰,李姣,侯丽. 中华医学图书情报杂志. 2018(06)
[5]基于多特征融合的中文电子病历命名实体识别[J]. 于楠,王普,翁壮,方丽英. 北京生物医学工程. 2018(03)
[6]大数据时代认知医疗的数据安全伦理透视——以IBM Watson Health为例[J]. 尤晋泽,林岩. 医学与哲学(A). 2018(03)
[7]面向领域文献的无监督中文分词自动优化方法[J]. 倪维健,孙浩浩,刘彤,曾庆田. 数据分析与知识发现. 2018(02)
[8]基于CRF与规则相结合的中文电子病历命名实体识别研究[J]. 翟菊叶,陈春燕,张钰,陈玉娥,刘玉文. 包头医学院学报. 2017(11)
[9]医学知识图谱构建技术与研究进展[J]. 袁凯琦,邓扬,陈道源,张冰,雷凯. 计算机应用研究. 2018(07)
[10]基于NLPIR汉语分词系统和BFSU PowerConc 1.0的警务汉语词频与搭配研究——以禁毒案件为例[J]. 孙琳. 现代语文(语言研究版). 2016(12)
博士论文
[1]电子病历文本挖掘关键算法研究[D]. 栗伟.东北大学 2014
硕士论文
[1]基于本体的中文医疗知识库及知识管理系统的构建[D]. 孔德华.清华大学 2017
[2]基于Neo4j图数据库的社交网络数据的研究与应用[D]. 张凤军.湖南大学 2016
[3]基于DBpedia的材料知识抽取系统设计与实现[D]. 李欣.河北科技大学 2015
[4]生物医学文本中的疾病实体识别和标准化研究[D]. 杨娅.大连理工大学 2015
[5]Web中文信息抽取中命名实体识别的研究及应用[D]. 刘杰.西北大学 2009
[6]基于N最短路径和隐马尔科夫模型的中文POI分词系统的研究[D]. 唐霄.西南大学 2008
本文编号:3560561
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3560561.html
最近更新
教材专著