基于深度学习的学术文献自动摘要方法研究

发布时间：2020-03-31 01:53

【摘要】：随着大数据时代的到来,网络学术资源开始呈现出爆炸式的增长,这使得科研工作者被淹没在越来越浩瀚的文献海洋当中。因此,如何自动地概括一个学科领域的文献集合以生成一份简洁、全面的综述报告,已经成为了目前知识管理研究与实践的热点问题之一。自动摘要作为自然语言处理中的一项重要技术,其通过对文档信息进行汇总和压缩,从而以一种浓缩且贴近用户需求的方式将最为关键的信息予以呈现,旨在帮助科研人员达到“站在巨人肩膀上”的目的。本文围绕如何提高面向学术文献的自动摘要方法展开了深入研究,结合了有关深度学习的一系列理论与方法,例如基于神经网络的文本表示方法、基于Seq2Seq模型的自动摘要方法,以及关于文本挖掘的经典算法,例如统计主题模型LDA 与 Labeled-LDA、链路分析方法 PageRank 与 PageRank with Priors,进而构建了一个“基于深度学习的学术文献自动摘要方法研究”体系,并且选用了美国计算机协会数字图书馆中的一部分(与计算机科学相关)文献进行数值实验验证。本文的主要研究内容包括:1.将“文献综述生成”任务定义为一个序列文本生成问题,进而提出了一种基于层次神经网络的Seq2Seq模型。具体地,该模型的核心组件包括一个层次文档编码器和一个基于注意力的解码器,其中层次编码器分别通过CNN层和RNN层实现句子级与文档级的语义表示,不仅能够正确地反映文档结构的层次性,还可以避免过长的单词序列所引发的梯度弥散和信息损失;而在解码过程中,注意力机制将各个候选句的显著性和新颖性同时纳入考虑,以保证所生成文摘在最大化代表性的时候尽量最小化其冗余性。2.基于“文献综述”是上下文感知的这一特点,提出了一种融合上下文信息的Seq2Seq模型。具体地,该模型首先利用Labeled-LDA算法推断每个候选句的主题分布,然后在文档编码过程中结合句子的主题信息,最后将源文本同时进行编码以添加到解码过程中,从而能够计算各个候选句与目标文献之间的上下文相关性。3.根据静态地分析上下文相关性无法满足文本语料是动态变化的这一事实,从信息网络的角度探索了图形上下文对于“文献综述生成”任务的重要程度,进而提出了一种联合上下文驱动的Seq2Seq模型。具体地,该模型首先利用Node2Vec算法矢量化异构学术网络中的每个节点,然后计算任意两篇论文在图形上下文中的连通距离,最后在解码过程中同时引入来自纯文本以及异构学术网络中的两种不同上下文相关性。
【图文】：

数量统计,文献,学术文献

第１章绪论逡逑１．１研究背景逡逑互联网的发展促进了科学的交流，人们获取学术文献（Ａｃａｄｅｍｉｃ邋Ｌｉｔｅｒａｔｕｒｅ）逡逑的途径己经从传统纸质印刷品转变成了电子媒介，从而极大地缩短了科技成果自逡逑发表至被其他工作者所引用的周期。虽然学术文献的网络化使得科研人员能够在逡逑更短的时间内获得更多的参考和学习资料，但是完全地了解其中的内容则是一件逡逑令人望而生畏的工作。特别是随着大数据（ＢｉｇＤａｔａ）时代的到来，网络学术资源逡逑逐渐呈现出一种井喷的态势，每天都有数以万计的科技出版物得到公开发表（图逡逑１．１展示了一份《Ａｔｏｗｅ》杂志于２０１２年发布的关于全球学术文献发表数量的统计逡逑报告），这给科研工作者快速而准确地从海量文献中挖掘所需信息带来了重大挑逡逑战⑴。逡逑

架构图,机器翻译,架构

（Ｓｐｅｅｃｈ邋Ｒｅｃｏｇｎｉｔｉｏｎ）邋［１１］等。通常，一个基础版本的Ｓｅｑ２Ｓｅｑ模型包含了三大组逡逑成部分逦即编码器（Ｅｎｃｏｄｅｒ）、解码器（Ｄｅｃｏｄｅｒ）以及连接两者的上下文向量逡逑（Ｃｏｎｔｅｘｔ邋Ｖｅｃｔｏｒ）。图１．３展示了一个基于Ｓｅｑ２Ｓｅｑ模型的机器翻译架构，其中编逡逑码器首先使用一个神经网络读取一条英文输入序列“Ｉ邋ｌｏｖｅ邋ｄｅｅｐ邋ｌｅａｒｎｉｎｇ．”，将其逡逑转换为一个固定大小的上下文向量，继而解码器从该向量中获取上下文信息，然逡逑后利用另一个神经网络产生一条中文输出序列“我爱深度学习。”。需要说明的逡逑是，该模型通过随机梯度下降法（Ｓｔｏｃｈａｓｔｉｃ邋Ｇｒａｄｉｅｎｔ邋Ｄｅｓｃｅｎｔ，邋ＳＧＤ）邋［１２］以学习神逡逑经网络中的各个参数，，从而实现模型的训练与优化。从理论上讲，只要给出足够逡逑多的输入输出对，就能够训练出一个性能足够好的Ｓｅｑ２Ｓｅｑ模型。逡逑１邋ｈｔｔｐｓ：／／ｓｍｅｒｉｔｙ．ｃｏｍ／ａｒｔｉｃｌｅｓ／２０１６／ｇｏｏｇｌｅ＿ｎｍｔ＿ａｒｃｈ．ｈｔｍｌ逡逑４逡逑
【学位授予单位】：大连海事大学
【学位级别】：博士
【学位授予年份】：2018
【分类号】：TP183;TP391.1

【参考文献】