当前位置:主页 > 科技论文 > 软件论文 >

基于深度语义挖掘的标题生成技术研究与实现

发布时间:2021-03-08 07:57
  信息化的迅速发展给人们带来便利的同时,也使得网络中充斥着大量冗余、非结构化的文本信息,这也大大降低了人们获取信息的效率。自动摘要技术可以帮助人们快速地获取信息,而利用标题生成技术则可以获得更加简洁的摘要。本文将其作为研究任务,针对短文本语料和长文本语料,分别从文本特征表示和层级模型两个方面深入挖掘文本语义信息进行标题生成。在文本特征表示方面,为了深入挖掘语义信息,本文针对短文本语料进行了基于词向量的文本特征表示研究。在词向量基础上,引入多种抽取式摘要中常用的特征,如词频、位置、聚类以及层次分布等特征,使文本特征表示对标题生成具有任务倾向性,并对这些文本特征的不同组合和表示进行相关研究;引入这些特征可以从语言学、统计学等角度对文本语义进行深入挖掘。在特征表示时,本文将词向量与引入特征直接进行拼接;并在此基础上,针对标题生成任务训练专门的词向量,利用命名实体,词性、主题特征等信息构造新的词向量训练语料,以期得到的词向量包含部分语言学和统计学信息等。在标题生成任务中引入抽取式摘要特征可以与词向量在表示语义时相互补充,从而全面多角度地深入挖掘文本语义信息。通过对比实验验证其有效性。此外,对稀疏... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

基于深度语义挖掘的标题生成技术研究与实现


图2-1?Seq2seq模型展开丨句??如图2-1所示,Se2Se模型主要包括编码器和解码器,其中i?=?1,2,N

结构示意图,隐含层,权重矩阵,网络单元


以及状态转移的计算,模型的计算量也会随着时序状态的增加呈指数增长。而循??环神经网络RNN通过在不同的时序状态共享参数极大地减少了计算量,同时又??能记忆序列信息。图2-2为RNN网络的基本结构示意图。??输出层?%??V\??隐含层?州??输入层?x??图2-2?RNN网络基本结构示意图??一般的神经网络(如多层感知机以及DNN等)包括输入层、隐含层和输出??层,层与层之间通过权值连接。同样地,如图2-2所示的RNN网络也包含输入??层、隐含层和输出层;而在RNN网络中不仅层与层之间有权重相连(图2-2中??的权重矩阵U,V为层与层之间的权重连接),而且隐含层自身也有权重连接,通过??权重矩阵W将上一时刻的信息传递到下一时刻,这也是RNN能对时序信息进行??记忆建模的原因。??°t ̄l?°t?°t?+?l??A?皮??xt-\?xt?+?l??图2-3?RNN网络单元展开图??图2-3为图2-2中RNN网络单元随时间的展开图,RNN网络可以随时间或??序列递归,是一种能够学习时序信息的模型。图2-3中的xt是RNN在时刻t的输??10??

网络单元,展开图,隐含层


以及状态转移的计算,模型的计算量也会随着时序状态的增加呈指数增长。而循??环神经网络RNN通过在不同的时序状态共享参数极大地减少了计算量,同时又??能记忆序列信息。图2-2为RNN网络的基本结构示意图。??输出层?%??V\??隐含层?州??输入层?x??图2-2?RNN网络基本结构示意图??一般的神经网络(如多层感知机以及DNN等)包括输入层、隐含层和输出??层,层与层之间通过权值连接。同样地,如图2-2所示的RNN网络也包含输入??层、隐含层和输出层;而在RNN网络中不仅层与层之间有权重相连(图2-2中??的权重矩阵U,V为层与层之间的权重连接),而且隐含层自身也有权重连接,通过??权重矩阵W将上一时刻的信息传递到下一时刻,这也是RNN能对时序信息进行??记忆建模的原因。??°t ̄l?°t?°t?+?l??A?皮??xt-\?xt?+?l??图2-3?RNN网络单元展开图??图2-3为图2-2中RNN网络单元随时间的展开图,RNN网络可以随时间或??序列递归,是一种能够学习时序信息的模型。图2-3中的xt是RNN在时刻t的输??10??


本文编号:3070703

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3070703.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a2691***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com