基于深度学习的文本关键词生成方法
发布时间:2021-09-24 11:41
关键词描述了文档的主题信息,可帮助读者快速获得文章核心内容,被广泛应用于信息检索、文献管理、文本压缩等领域。相较于传统的关键词抽取方法,基于深度学习的关键词生成方法不仅可以生成原文中未出现过的关键词,而且可以学习到关键词在文档中的潜在语义信息。故本研究主要聚焦于深度学习在关键词生成上的应用,并根据实际效果提出多个改进算法。具体工作包括以下三个方面:(1)探究基于序列到序列(Seq2Seq)的关键词生成算法。在Seq2Seq框架中融入注意力机制和复制机制,实现了关键词生成模型CopyRNN。通过对比经典的六种抽取式算法和CopyRNN在五个数据集上的测试结果,证明了生成式算法相较于抽取式算法来讲,性能有较大的提升。(2)发现并分析验证CopyRNN会生成重叠短语的不足,并针对此不足提出了基于并行深度学习网络的关键词生成算法(ParaNet)。该算法结构较为复杂,包含并行的编码器和并行的解码器。并行的两个编码器分别独立地将文本序列及其对应的句法标签编码到网络中。并行的解码器采用多任务的框架,使得模型联合地学习了单词解码任务和句法标签解码任务。实验结果证明了ParaNet相较于CopyRNN...
【文章来源】:中国民航大学天津市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
本文的研究内容在缓解CopyRNN生成重叠短语的不足后,继续深入研究并发现了CopyRNN存在
中国民航大学硕士学位论文16例达到了42.73%。并且,若分别统计不同长度的关键词生成重叠短语的比例,可发现:随着关键词长度的增加,生成重叠短语的关键词比例会越来越大,当长度为1时,生成重叠短语的关键词比例为34.61%,但当长度大于4时,生成重叠短语的比例高达84.43%。另外,一个统计过程中发现的规律是:长的关键词易生成子短语,短的关键词易生成父短语。虽然重叠问题限制了现有方法的表现,它也给了我们有机会帮助更好地生成关键短语因为重叠的短语通常非常接近正确的关键短语。3.2并行网络在通常情况下,大多数关键短语都是名词短语。先验知识是名词短语是由至少一个名词和附属词,例如形容词,介词组成。而在前文举出的例子中,CopyRNN生成的关键词“Internetheld”中包含了一个动词“held”,“Distributed”只有一个形容词。CopyRNN关键词生成算法生成了大量不符合句法规则的关键词。因此,句法信息对于改进关键词的生成性能是非常有用的。有学者研究证明了单纯的Seq2Seq网络只能隐性地学习到源文本中的句法信息,而无法捕获到很多深层的句法结构细节。为了克服这个缺点,本章提出了一个深度集成的并行Seq2Seq模型,这个模型可以直接融合原文的句法信息,从而达到约束生成短语的句法结构。本章提出的并行网络是在基本的Seq2Seq框架上发展而来的,它包含一个并行的编码器和一个并行的解码器,结构如图3-1所示。并行的编码器负责将文本及其句法信息编码到网络中,并行的解码器负责解码单词和对应的句法标签,来达到直接约束生成短语的句法结构。图3-1并行网络全局框架图
中国民航大学硕士学位论文24图3-2λ在不同数据集上的影响曲线3.7本章小结本章详细分析验证了CopyRNN会生成重叠短语的不足,并针对此不足提出了基于并行深度学习网络的关键词生成算法(ParaNet)。该算法结构较为复杂,包含并行的编码器和并行的解码器。并行的编码器分别独立地将文本序列及其对应的句法标签(词性标签,短语标签)编码到网络中。并行的解码器采用多任务的框架,使得模型联合地学习了单词解码任务和句法标签解码任务。另外,ParaNet的注意力机制中融合了覆盖机制,以防止生成重复的短语。同样在五个数据集上的实验结果证明了ParaNet相较于CopyRNN来说,不仅可以大幅度提升性能,同时也缓解了生成重叠短语的问题。另外,跨领域的测试证明了ParaNet可以学习到语义和句法的公共特征,具有非常好的泛化能力。
【参考文献】:
期刊论文
[1]基于15年文献计量学的信息检索相关性研究[J]. 于兴尚. 图书馆研究与工作. 2018(11)
[2]基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 刘奇飞,沈炜域. 情报探索. 2018(06)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
硕士论文
[1]面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学 2016
本文编号:3407693
【文章来源】:中国民航大学天津市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
本文的研究内容在缓解CopyRNN生成重叠短语的不足后,继续深入研究并发现了CopyRNN存在
中国民航大学硕士学位论文16例达到了42.73%。并且,若分别统计不同长度的关键词生成重叠短语的比例,可发现:随着关键词长度的增加,生成重叠短语的关键词比例会越来越大,当长度为1时,生成重叠短语的关键词比例为34.61%,但当长度大于4时,生成重叠短语的比例高达84.43%。另外,一个统计过程中发现的规律是:长的关键词易生成子短语,短的关键词易生成父短语。虽然重叠问题限制了现有方法的表现,它也给了我们有机会帮助更好地生成关键短语因为重叠的短语通常非常接近正确的关键短语。3.2并行网络在通常情况下,大多数关键短语都是名词短语。先验知识是名词短语是由至少一个名词和附属词,例如形容词,介词组成。而在前文举出的例子中,CopyRNN生成的关键词“Internetheld”中包含了一个动词“held”,“Distributed”只有一个形容词。CopyRNN关键词生成算法生成了大量不符合句法规则的关键词。因此,句法信息对于改进关键词的生成性能是非常有用的。有学者研究证明了单纯的Seq2Seq网络只能隐性地学习到源文本中的句法信息,而无法捕获到很多深层的句法结构细节。为了克服这个缺点,本章提出了一个深度集成的并行Seq2Seq模型,这个模型可以直接融合原文的句法信息,从而达到约束生成短语的句法结构。本章提出的并行网络是在基本的Seq2Seq框架上发展而来的,它包含一个并行的编码器和一个并行的解码器,结构如图3-1所示。并行的编码器负责将文本及其句法信息编码到网络中,并行的解码器负责解码单词和对应的句法标签,来达到直接约束生成短语的句法结构。图3-1并行网络全局框架图
中国民航大学硕士学位论文24图3-2λ在不同数据集上的影响曲线3.7本章小结本章详细分析验证了CopyRNN会生成重叠短语的不足,并针对此不足提出了基于并行深度学习网络的关键词生成算法(ParaNet)。该算法结构较为复杂,包含并行的编码器和并行的解码器。并行的编码器分别独立地将文本序列及其对应的句法标签(词性标签,短语标签)编码到网络中。并行的解码器采用多任务的框架,使得模型联合地学习了单词解码任务和句法标签解码任务。另外,ParaNet的注意力机制中融合了覆盖机制,以防止生成重复的短语。同样在五个数据集上的实验结果证明了ParaNet相较于CopyRNN来说,不仅可以大幅度提升性能,同时也缓解了生成重叠短语的问题。另外,跨领域的测试证明了ParaNet可以学习到语义和句法的公共特征,具有非常好的泛化能力。
【参考文献】:
期刊论文
[1]基于15年文献计量学的信息检索相关性研究[J]. 于兴尚. 图书馆研究与工作. 2018(11)
[2]基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 刘奇飞,沈炜域. 情报探索. 2018(06)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
硕士论文
[1]面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学 2016
本文编号:3407693
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3407693.html