基于深度学习的短文本自动摘要方法研究
发布时间:2020-06-15 14:38
【摘要】:随着新媒体平台的不断涌现,人们日常接触到的信息呈现爆炸式的增长,从而给人们带来信息过载的困扰,并且随着生活节奏的加快,人们无暇梳理接收到的所有信息。通过阅读摘要,人们能够提高理解原文的效率,有效减少浏览信息的时间和精力。随着深度学习的崛起,越来越多的研究者利用深度学习的方法生成文档的摘要,并逐步应用于实际系统中。因此,本文在深度学习基础上研究短文本的语义表示以及基于序列到序列架构的自动摘要方法,并将短文本的语义表示应用于自动摘要任务中。目前无监督的文本表示方法主要包括向量空间模型和doc2vec等。这类方法在语料库规模较大时能够取得很好的效果,却忽略了文本中的词序信息。针对这个问题,本文提出无监督模型RevONet,考虑词序特征,利用卷积神经网络学习文档的语义表示,并在文本分类任务中,与词频、词频逆文档频率、LDA、LSI、doc2vec等进行对比。实验结果表明,RevONet模型能够达到78.7%的准确率,优于向量空间模型和doc2vec等,验证了RevONet模型在语义表示上的有效性,并应用于自动摘要任务中,衡量源文本与目标摘要之间的语义相似性。根据文本摘要的特点,本文在序列到序列架构的基础上提出最大化文档相似度模型DocSNet。DocSNet模型利用RevONet模型提取的源文本语义表示,计算与目标摘要之间的相似性,通过最大化源文本与目标摘要之间的语义相似性优化模型,进一步生成摘要。对于序列到序列架构,DocSNet模型使用双向LSTM作为编码器,单向LSTM为解码器构建模型。不仅如此,DocSNet模型引入注意力机制,进一步提高生成摘要的质量。通过在哈尔滨工业大学发布的大规模中文短文本摘要数据集上的实验,DocSNet模型的ROUGE-1和ROUGE-L指标分别可以达到33.6%和30.4%验证了DocSNet模型的有效性。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
【图文】:
并从这个主题中以一定的概率选择某个词语这样一个过程得到的。其中,逡逑每个文档可以表示为每个主题所构成的概率分布,每一个主题可以表示为各个词逡逑语所构成的概率分布。用概率图模型表示如图3-1所示。逡逑(>!邋0N丨逡逑a逦0逦z逦w邋i\j逡逑M逡逑图3-1邋LDA主题|庑偷耐冀峁瑰义隙杂谟锪峡庵械拿恳桓鑫牡担蹋模聊P偷木咛迳晒讨饕扇剑哄义希ǎ保
本文编号:2714559
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP183
【图文】:
并从这个主题中以一定的概率选择某个词语这样一个过程得到的。其中,逡逑每个文档可以表示为每个主题所构成的概率分布,每一个主题可以表示为各个词逡逑语所构成的概率分布。用概率图模型表示如图3-1所示。逡逑(>!邋0N丨逡逑a逦0逦z逦w邋i\j逡逑M逡逑图3-1邋LDA主题|庑偷耐冀峁瑰义隙杂谟锪峡庵械拿恳桓鑫牡担蹋模聊P偷木咛迳晒讨饕扇剑哄义希ǎ保
本文编号:2714559
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2714559.html