基于半监督学习的药品专利实体识别及应用
发布时间:2020-12-15 03:27
随着生命科学的蓬勃发展,化学医药领域的相关文献呈现指数级增长态势。从这些海量的非结构化医学文献中抽取出结构化的、有组织的化合物信息,有助于医药及相关领域人员开展药品研发工作,进而促进整体制药工业的技术革新。其中,化学命名实体受到医药学研究者的广泛关注,是医学文献信息分析的主要载体,相关命名实体识别成为目前一个重要的科研课题。在现有的命名实体识别(Named Entity Recognition,NER)方法中,带有条件随机场层的长短期记忆网络(Long Short Term Memory with a Conditional Random Field layer,LSTM-CRF)是最先进、最常用的方法之一。这种有监督学习方法通常需要大量的标记语料,然而与专业领域文献高度相似的标记语料库却非常有限,这其中就包括化学医药领域的药品专利文献。这种情况下,有监督学习模型就无法准确地识别相关实体。为解决上述问题,本文提出了一种基于双向长短期记忆网络与词相似度联合并带有条件随机场(BiLSTM-WS-CRF)的半监督命名实体识别方法。该方法首先对各类型实体的词向量进行无监督聚类,将获得的聚类中心...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 命名实体识别的研究现状
1.2.2 药品专利命名实体识别的发展现状
1.3 研究内容与研究方案
1.4 本文结构
2 相关背景知识
2.1 词的表示方法
2.1.1 基于矩阵的分布表示
2.1.2 基于聚类的分布表示
2.1.3 基于神经网络的分布表示
2.2 命名实体识别的标记策略
2.3 BiLSTM-CRF模型
2.4 本章小结
3 词与标签关系的模糊提取
3.1 词相似度的度量方法
3.2 基于词相似度的词与标签关系表述
3.2.1 基于模糊C均值聚类的参考向量提取
3.2.2 词与标签的关系表述生成
3.3 实验及分析
3.4 本章小结
4 基于半监督学习的药品专利命名实体识别
4.1 药品专利中实体词汇的相似度特点
4.2 基于词相似度的半监督命名实体识别模型
4.3 实验及分析
4.3.1 实验数据与实验设置
4.3.2 不同相似性度量方法的影响
4.3.3 与现有模型的对比
4.3.4 模型分析
4.4 本章小结
5 命名实体识别系统实现
5.1 需求分析
5.2 系统设计
5.3 数据库设计
5.4 功能实现
5.4.1 系统开发环境
5.4.2 系统功能模块的实现
5.5 本章小结
结论
参考文献
致谢
本文编号:2917565
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 命名实体识别的研究现状
1.2.2 药品专利命名实体识别的发展现状
1.3 研究内容与研究方案
1.4 本文结构
2 相关背景知识
2.1 词的表示方法
2.1.1 基于矩阵的分布表示
2.1.2 基于聚类的分布表示
2.1.3 基于神经网络的分布表示
2.2 命名实体识别的标记策略
2.3 BiLSTM-CRF模型
2.4 本章小结
3 词与标签关系的模糊提取
3.1 词相似度的度量方法
3.2 基于词相似度的词与标签关系表述
3.2.1 基于模糊C均值聚类的参考向量提取
3.2.2 词与标签的关系表述生成
3.3 实验及分析
3.4 本章小结
4 基于半监督学习的药品专利命名实体识别
4.1 药品专利中实体词汇的相似度特点
4.2 基于词相似度的半监督命名实体识别模型
4.3 实验及分析
4.3.1 实验数据与实验设置
4.3.2 不同相似性度量方法的影响
4.3.3 与现有模型的对比
4.3.4 模型分析
4.4 本章小结
5 命名实体识别系统实现
5.1 需求分析
5.2 系统设计
5.3 数据库设计
5.4 功能实现
5.4.1 系统开发环境
5.4.2 系统功能模块的实现
5.5 本章小结
结论
参考文献
致谢
本文编号:2917565
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2917565.html