生物医学文本中药物信息抽取方法研究

发布时间:2019-06-10 07:11
【摘要】:随着生物医学研究及互联网技术的发展,互联网上可获取的生物医学文献数量急剧增长。海量非结构化的生物医学文献中蕴含着丰富的、有价值的知识。药物作为一种被广泛研究的生物医学实体,是相关知识的重要载体。从非结构化的生物医学文本中抽取出结构化的药物信息既能服务于相关领域的研究人员与医疗专业人员,又能扩充、更新现有的药物知识库。因此,生物医学文本中的药物信息抽取获得越来越多的关注,逐渐成为研究的热点。当前药物信息抽取的研究主要集中在药物名识别及药物之间相互作用关系抽取两个问题上,相关方法的性能尚不能满足实际应用的需要。因此,本文围绕这两个问题展开深入研究。主要研究内容包括以下几个部分:第一,基于多语义特征融合的药物名识别方法。基于药物名词典的语义特征对识别药物名具有很大帮助,被广泛用于基于机器学习的药物名识别方法中。但由于药物名词典覆盖范围有限、更新不及时等原因,基于药物名词典的语义特征存在一定的局限性。本文注意到大规模非结构化的生物医学文献中包含大量未登录的药物名。为弥补基于词典的语义特征的不足,本文提出一种基于多语义特征融合的药物名识别方法。该方法利用大规模非结构化的生物医学文献生成基于词向量的语义特征,并将其与基于药物名词典生成的语义特征联合用于药物名识别。实验结果表明,基于多语义特征融合的药物名识别方法性能优于使用单一语义特征的方法。第二,基于特征组合与特征选择的药物名识别方法。特征组合是指将多个不同类型的简单特征组合为一个组合特征。相比于简单特征,组合特征的优势在于其能表示语句中词的多个属性。在药物名识别问题中,可能的特征组合方式很多,直接将简单特征组合会产生数量庞大的组合特征,且包含大量噪声,影响模型的性能。因此,除了n元文法特征外,现有的药物名识别方法通常仅使用简单特征。为了有效利用组合特征,本文提出了一种面向药物名识别的特征生成框架。该框架包含特征组合与特征选择两个模块,特征组合模块将简单特征组合得到组合特征,特征选择模块去除特征集合中的大量噪声。本文基于该框架将词向量特征、词典特征及通用特征组合,将得到的特征用于条件随机场模型进行药物名识别。实验结果表明,基于特征组合与特征选择的药物名识别方法性能优于仅使用简单特征的药物名识别方法。第三,基于文本序列卷积神经网络的药物相互作用关系抽取方法。现有的性能较好的药物相互作用关系抽取方法是基于支持向量机的方法。这类方法使用大量的人工定义特征且需要各种外部自然语言处理工具来生成这些特征。因此,其性能受外部自然语言处理工具的影响较大。为了减少对外部自然语言处理工具的依赖,本文提出一种基于文本序列卷积神经网络的药物相互作用关系抽取方法。该方法只需要输入由无监督的深度学习算法得到的词向量以及随机初始化的位置向量,通过文本序列卷积与最大池化操作自动学习得到特征,用于softmax分类器进行关系抽取。实验结果表明,该方法性能优于传统的基于支持向量机的方法。第四,基于依存结构卷积神经网络的药物相互作用关系抽取方法。基于文本序列卷积神经网络的药物相互作用关系抽取方法忽略了词之间的长距离依存关系,而这种依存关系对药物相互作用关系抽取很重要。因此,本文提出一种基于依存结构卷积神经网络的药物相互作用关系抽取方法,将词之间的长距离依存关系融入卷积神经网络模型。实验结果表明,引入词之间的长距离依存关系能提升药物相互作用关系抽取的性能。句法分析器对长句的依存句法分析结果错误较多,这些错误传播到依存结构卷积神经网络模型中,会影响模型的性能。为避免错误传播,本文根据语句长度将基于文本序列与基于依存结构的卷积神经网络方法组合。实验结果表明,这种组合能进一步提升药物相互作用关系抽取的性能。
[Abstract]:With the development of biomedical research and Internet technology, the number of biomedical literature available on the Internet has increased dramatically. The mass of unstructured biomedical literature contains rich and valuable knowledge. As a biomedical entity that is widely studied, the drug is an important carrier of relevant knowledge. Extracting the structured drug information from the unstructured biomedical text can serve both the researchers and the medical professionals in the relevant field, and can be expanded and updated to update the existing drug knowledge base. As a result, more and more attention has been paid to the extraction of drug information in the biomedical texts, becoming the focus of the study. The current study of drug information extraction is mainly focused on the two problems of drug name recognition and drug-drug interaction, and the performance of the related methods can not meet the needs of the practical application. Therefore, this paper studies the two problems. The main research contents include the following parts: First, the method of drug name recognition based on multi-semantic feature fusion. The semantic feature of the drug-name dictionary has great help to identify the drug name, and is widely used in the drug name recognition method based on machine learning. However, the semantic features of the drug-name dictionary have some limitations due to the limited coverage of the drug-name dictionary and the non-timeliness of the update. It is noted in this document that large-scale unstructured biomedical literature contains a large number of unregistered drug names. In order to make up for the deficiency of the semantic features based on the dictionary, this paper proposes a method of drug name recognition based on multi-semantic feature fusion. The method utilizes large-scale unstructured biomedical literature to generate semantic features based on word vectors and is used in combination with the semantic features generated by the drug name dictionary for drug name recognition. The experimental results show that the performance of the drug name recognition method based on the multi-semantic feature fusion is superior to that of using a single semantic feature. And secondly, identifying the drug name based on the feature combination and the feature selection. A feature combination is to combine a plurality of different types of simple features into one combined feature. The advantage of a combination feature is that it can represent a number of attributes of a word in a statement, as compared to a simple feature. In the problem of drug name recognition, there are many possible combinations of features, which directly combine simple features to produce a large number of combined features, and contain a lot of noise and affect the performance of the model. Thus, in addition to the n-gram feature, the existing drug name recognition method generally uses only a simple feature. In order to effectively use the combination character, this paper presents a feature generation framework for drug-name recognition. The framework comprises a feature combination and a feature selection module, wherein the feature combination module combines the simple feature combination to obtain the combined feature, and the feature selection module removes a large amount of noise in the feature set. Based on the framework, the feature of the word vector, the character of the dictionary and the general characteristic combination are combined, and the obtained characteristics are used for the identification of the drug name with the airport model. The experimental results show that the performance of the drug name recognition method based on the feature combination and feature selection is superior to the drug name recognition method using only the simple feature. And thirdly, a method for extracting a drug interaction relationship based on a text-sequence convolution neural network. The traditional method for extracting the drug interaction relationship with good performance is based on a support vector machine. Such methods use a large number of human-defined features and require various external natural language processing tools to generate these features. As a result, its performance is greatly affected by the external natural language processing tool. In order to reduce the dependence of external natural language processing tools, this paper presents a method for extracting drug interaction relation based on a text-sequence convolution neural network. The method only needs to input the word vector obtained by the unsupervised depth learning algorithm and the randomly initialized position vector, and the feature is automatically learned through the convolution of the text sequence and the maximum pool operation, and is used for the relation extraction of the softmax classifier. The experimental results show that the method is superior to the traditional method based on the support vector machine. And fourthly, a method for extracting a drug interaction relationship based on a dependent structure convolution neural network. The method of drug-interaction relationship extraction based on the text-series convolution neural network ignores the long-distance dependence of words, which is important for the extraction of drug-interaction relationship. In this paper, a method for extracting the drug interaction relation based on the convolution neural network of the dependent structure is proposed, and the long-distance dependency relationship between the words is integrated into the convolution neural network model. The experimental results show that the long-distance relationship between the words can improve the performance of drug interaction. The syntax analysis of the long sentences has many errors, and these errors are propagated to the dependent structure convolution neural network model, which can affect the performance of the model. In order to avoid the error propagation, this paper combines a text-based sequence with a dependent structure-based convolution neural network method according to the length of the sentence. The experimental results show that this combination can further improve the performance of drug interaction.
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

2 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

3 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

4 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

5 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

6 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

7 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期

8 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

9 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

10 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期

相关会议论文 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前2条

1 刘胜宇;生物医学文本中药物信息抽取方法研究[D];哈尔滨工业大学;2016年

2 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

2 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

3 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年

4 梅莉莉;基于领域特殊性和统计语言知识的新词抽取方法[D];北京理工大学;2016年

5 陈亚东;面向数据稀疏问题的英文事件抽取研究[D];苏州大学;2016年

6 朱珠;基于双语的事件抽取方法研究[D];苏州大学;2016年

7 余伟;基于领域知识的Web信息抽取方法研究[D];安徽工程大学;2016年

8 吕云云;基于集成学习的中文观点句抽取方法研究[D];山西大学;2013年

9 杨云;基于句法结构的评价对象抽取方法研究[D];东北师范大学;2015年

10 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年



本文编号:2496275

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2496275.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4c391***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com