面向“问题-方法”利用的科技文本知识挖掘研究
发布时间:2024-07-10 20:31
科技文本内容的分析和利用一直是情报学科研究的关键问题。当前,科学技术进入快速发展阶段,各领域积累了大量科技文献,传统以文献为粒度的文本挖掘方式不利于用户获取和利用科技文献中的知识内容。为更深入有效地利用科技文本,就必须突破这种以单篇文本为粒度的挖掘方案,从更细粒度的角度深入到对科技文本潜在知识内容的挖掘。科技文本的挖掘和利用对整个科学的发展起着重要的作用,特别是人们所重点关注的科技文本中的研究问题、解决方法等细粒度、深层次内容,这些都是人类重要的知识积累。鉴于此,本文面向科技论文中“问题-方法”相关知识的利用,进行科技文本的知识挖掘研究,具体分为两个部分,包括知识单元和知识关联,对于一个特定领域的细粒度知识挖掘,它们常分别对应于实体和实体关系。本文以人工智能领域为实证对象,以科技文献摘要为数据源,进行“研究问题”、“解决方法”对应的知识单元与知识关联抽取研究。综合使用基于通用神经网络(如Bi-LSTM)的方法和基于预训练语言模型(如BERT、Sci Bert)的方法,开展研究问题、解决方法实体的识别和抽取研究,并综合比较各模型在人工智能领域实体识别上的效果。随后,以人工智能领域知识演化...
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
本文编号:4004692
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图3.1科技文献摘要中的问题和方法示例
3人工智能领域科技文本研究问题和解决方法实体识别硕士学位论文掘的精准性以及文本处理的高效性优势,其任务实质为序列标注问题。
图3.3LSTM网络单元结构图[92]
3人工智能领域科技文本研究问题和解决方法实体识别硕士学位论文20长距离依赖关系。在t时刻单个LSTM网络单元的更新公式如式(3.1)所示。=(++(1)+)=(++(1)+)=(++(1)+)=(++(1)+)=(1)+=()其中,W和b分别表示权重矩阵和偏置矩阵,it、ft、o....
图3.7BERTCRF结构示意图[46]
3人工智能领域科技文本研究问题和解决方法实体识别硕士学位论文243.3.2基于预训练语言模型的方法由综述部分可知,BERT是在大规模语料上预训练所得,蕴含丰富的文本语义信息。基于此,在应用到本文研究问题和解决方法实体识别任务中,想必可起到不错的效果。实践中,文本输入包括三方面内容....
图3.8实验部分语料导入示意图
3人工智能领域科技文本研究问题和解决方法实体识别硕士学位论文26图3.8实验部分语料导入示意图图3.9实验部分语料基于种子词的自动初标注示意图
本文编号:4004692
本文链接:https://www.wllwen.com/tushudanganlunwen/4004692.html