基于弱监督深度学习的中医文本关系抽取研究

发布时间:2024-06-11 23:13
  中医学领域积累了海量的古籍文献,包含大量中医知识。为了从海量的中医文献中自动获取需要的知识信息,首先需要对中医文本进行信息抽取,关系抽取是信息抽取的基本任务之一。有监督关系抽取方法需要大量已知标签的数据集,弱监督关系抽取方法可以在给定实体关系三元组和未标注中医文本的条件下利用弱监督学习方法自动生成语料,能够有效缓解人工标注的高额成本。但是弱监督学习条件下的中医文本标注数据集存在错误标注,产生了噪声句子,影响了关系抽取的效果。针对这些问题主要做了以下研究工作。针对中医弱监督标注数据中存在错误标注,影响以包为级别的关系抽取效果的问题,提出了一种基于双注意力机制的弱监督深度学习模型。该模型基于多示例学习思想,在以包为级别的基础上进行关系分类。利用双向长短时记忆网络对中医文本的嵌入向量进行双向编码,捕捉每个句子的语义特征。同时通过字级注意力层和弱监督注意力层分别降低了无关中医词汇和噪声语句的权重,减轻噪声对关系抽取效果的影响。此模型可以减弱噪声影响,更好地为每个包预测关系。将本模型与平均注意力层作对比实验,实验表明本模型可以在弱监督层面更好的抽取包的关系信息,获得更好的关系抽取效果。针对弱监督...

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

图11弱监督数据集Fig.11Weakly-superviseddatasets

图11弱监督数据集Fig.11Weakly-superviseddatasets

第3章中医文本获取与预处理-25-是一个中医实体对,它们之间的关系为“药性”,将实体对和文本匹配后得到“何首乌,味苦涩微温无毒”这句话,然后将这段中医文本标注为“药性”关系标签。在实验过程中将得到的结果整理为“实体1、空格、实体2、空格、关系、空格、句子”这样的形式,方便输入模型....


图15字向量文件

图15字向量文件

第4章基于双注意力机制的弱监督深度学习模型-31-示,自动提取语义信息,使用Gensim处理文本高效且方便。Gensim通过学习文本内部的统计信息自动发现上下文的语义信息,实现了很多常用算法,比如Word2vec、FastText、隐含迪利克雷分布等,这些算法都是无监督的,只需要....


图29句子选择结果

图29句子选择结果

华北理工大学硕士学位论文-52-表8关系抽取器结果对比Table8Comparisonofrelationextractorresults关系抽取器模型PrecisionRecallF值直接训练模型91.992.5092.00联合训练模型92.592.7592.54对于句子选择器....



本文编号:3992857

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3992857.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70156***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com