当前位置:主页 > 医学论文 > 生物医学论文 >

生物医学文本中细菌命名实体识别算法研究

发布时间:2020-08-06 22:38
【摘要】:微生物尤其是细菌之间的相互作用决定了微生态群落组织和功能,从而影响了人类的健康和环境生态系统的功能。通过实验方法获得细菌相互作用代价较高,随着高通量测序数据的日益积累,通过计算推断的方法获得细菌交互成为研究的热点,但缺乏标准的交互数据集使得计算方法的评估和验证成为问题。另一方面,生物医学文献中隐含着大量的经过实验验证细菌相互作用,但是如何从这些海量文献中快速准确地挖掘出这些潜在的相互作用关系是一个新的问题。细菌命名实体与以往生物医学实体相比具有自身的独特属性,如种类繁杂、新实体不断出现、一词多义、大量实体嵌套现象等,这些性质导致了细菌命名实体识别任务的复杂性。本文研究了基于条件随机场(CRF)和细菌词典的细菌命名实体识别方法及基于深度学习的的细菌命名实体识别方法,取得了较好的识别效果,主要研究工作和贡献如下:(1)基于条件随机场和细菌词典的细菌命名实体识别方法。本文参考经典的Genia Corpus V3.02语料,标注了一千余篇可用于细菌命名实体识别的语料库,通过UMLS构建细菌词典,根据细菌命名特有方式,人工设计了 42种特征,并使用CRF算法学习模型,结合单独最优组合法挑选出最优特征集,和其他领域基于CRF的命名实体识别任务达到的性能作比较,并用生物领域常用分类算法SVM训练模型进行对比。还针对其在处理大规模数据的低效性,在速度改进上提出了基于Spark分布式平台的细菌命名实体识别系统。(2)基于深度学习的细菌命名实体识别方法。有监督机器学习方法中使用的特征需人工选取并进行特征选择,需要领域先验知识,与所解决的问题紧密相关,普适性不强,且模型的性能很大程度上依赖于数据的表示,需要耗费大量的时间精力不断地设计更好的特征。针对上述问题,本文提出一种基于条件随机场和双向长短期记忆网络(BI-LSTM-CRF)的细菌命名实体识别系统,经训练、验证和评估,F1值达到了 86.718%。实验结果表明,基于BI-LSTM-CRF的细菌命名实体识别系统不仅无需人工抽取特征,编程工作量少,且预测效果优于笔者先前的工作中的基于CRF和词典的细菌命名实体识别。本文提出的细菌命名实体识别系统,具有较好的速度和性能,可以快速有效地从大型生物医学文献中自动识别出细菌命名实体。本文的工作为从医学文献提取细菌交互关系奠定了可行的基础。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R318;TP391.1
【图文】:

线性链,随机场,条件


别贡献大的特征训练学习器,其最核心的思想是结[42】,有优异的学习能力和泛化性能,尤其在处理小样、局部极小等任务上展现出其特有的优势,由于这别也经常使用SVM算法。Park邋K.M等分别在GENIA、词缀、词形等特征学习SVM模型,F1值分别达6ssler结合隐马尔可夫和支持向量机在GENIA语料上64.0%【45]等。逡逑随机场模型逡逑(CRF)是一种在给定变量观测序列后对输出序列化数据的判别式无向图模型,其理论源于Markov随机确定最大化条件概率的思想。2001年由LafTerty等理领域中,如线性链条件随机场(CRFs)。在序列列,F表示与之对应的输出标记序列或状态序列。序列}7的条件概率分布构成条件随机场,,^+1,.",>:,)=户0^义,^+1),则称户(>1义)为线

对比图,查准率,单词,对比图


在两种语料下分别组合单词特征和其他特征训练的模型查准率P对比图

对比图,单词,对比图,模型


在两种语料下分别组合单词特征和其他特征III练的模型召回率R对比图

【相似文献】

相关期刊论文 前10条

1 刘浏;王东波;;命名实体识别研究综述[J];情报学报;2018年03期

2 朱颢东;杨立志;丁温雪;冯嘉美;;面向中文微博命名实体识别的对比研究[J];湖北民族学院学报(自然科学版);2017年01期

3 包敏娜;斯·劳格劳;;基于词典匹配的蒙古文命名实体识别研究[J];中央民族大学学报(哲学社会科学版);2017年03期

4 罗芳;熊前兴;肖敏;;基于本体的产品命名实体识别研究[J];武汉理工大学学报(信息与管理工程版);2011年06期

5 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期

6 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期

7 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期

8 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期

9 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期

10 闫海磊;施水才;;一种面向时政新闻的命名实体识别方法[J];北京信息科技大学学报(自然科学版);2018年06期

相关会议论文 前10条

1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年

2 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年

3 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

7 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年

9 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年

10 朱佳晖;张文峰;刘卫平;张超;陈渊;;基于双向LSTM和CRF的军事命名实体识别和链接[A];第六届中国指挥控制大会论文集(上册)[C];2018年

相关博士学位论文 前10条

1 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年

2 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年

3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

4 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年

5 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年

6 何涛;互联网广告投递中的商品名称识别[D];武汉大学;2014年

7 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年

8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

9 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年

10 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年

相关硕士学位论文 前10条

1 耿雪来;面向旅游的蒙汉双语知识图谱的研究与构建[D];内蒙古大学;2019年

2 王超;基于神经网络的命名实体识别与实体关系联合抽取[D];东北师范大学;2019年

3 徐国海;面向中文医疗文本的命名实体识别研究[D];华东师范大学;2019年

4 李延昀;基于注意力机制的命名实体识别算法研究[D];北京邮电大学;2019年

5 干家东;参数共享模式下的实体和关系联合抽取研究[D];北京邮电大学;2019年

6 劳雅迪;基于强化学习的命名实体识别算法研究[D];北京邮电大学;2019年

7 顾溢;基于BiLSTM-CRF的复杂中文命名实体识别研究[D];南京大学;2019年

8 安磊;构建金融知识图谱的知识抽取服务的设计与实现[D];南京大学;2019年

9 韩静漪;科技项目申报通知的命名实体识别研究[D];南京农业大学;2017年

10 杨贺羽;基于深度学习的半监督式命名实体识别[D];沈阳工业大学;2019年



本文编号:2783068

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/2783068.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f103a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com