基于序列到序列模型的中文生成式自动文摘研究
发布时间:2021-04-19 00:05
随着近几年文本数据的迅速增长,人们的生活充斥着海量的文本信息,如新闻、博客、邮件以及会议报告等。从大量的文本信息中提炼出重点内容已成为解决信息过剩的迫切需求,而自动文摘为此提供了一个解决方案。自动文摘的主要目的是将原文档的主要内容浓缩成一个精简摘要,提高人类快速获取文档信息的效率。早期自动文摘领域的工作大多集中在基于统计学和图排序算法的抽取式自动文摘。近年来,随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式自动文摘到生成式自动文摘的方向演化,以达到生成更高质量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自动文摘模型的研究,目前该方面的研究仍面临着诸多挑战,例如基本序列到序列模型的常见问题(词表溢出和信息重复)、获取原文档重点信息能力欠缺以及生成摘要不合理等问题,针对这些问题本文提出了相应的解决方案,主要的研究工作如下:首先,本文采用Subword分词算法处理序列到序列模型的词表溢出问题,该方法将词分割成更细粒度的子词单元,显著减小了词表长度,缓解了词表溢出。同时,本文将已生成摘要的注意力机制嵌入序列到序列模型中以缓解信息重复问题,该机制通过回顾已生成的摘...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.2?LSTM结构图??从图2.2中可知,LSTM的信息输入到输出需要通过三种门控机制,分别为??
简单的门控机制的网络GRU,该模型和LSTM的最主要的区别为:将遗忘门和输??入门合成一个单一的更新门,同时还混合了细胞状态和隐状态。因此GRU比标准??的LSTM简洁很多。具体的结构信息如图2.3所示。?????穿??>?■?v.:::..;,,.?1?1?nn?ar?nr??@?(5??图2.3?GRU结构图??由图2.3和图2.2对比可以清晰的发现,GRU将门控机制由三个缩减为两个,??同时去除了细胞状态C。虽然GRU变得更简洁,但其效果与LSTM差别不大,因??此也是当前非常流行的一种简洁而有效的网络。具体的计算方式如公式2.3所示。??rt?=a(JVrh,_x+Urx,])??(公式?2.3)??z,=G(W:ht_^U.x,)??h,=(}-zl)*hl-l?+?zl*h,??其中,r,是重置门,¥是候选记忆单元,由重置门r,对前一时间步的隐状态进行??重置并通过tanh激活函数激活而得到。是更新门
控RNN比普通的RNN更有效,如LSTM和GRU等,双向的RNN比单向的RNN??更有效,因此本文的所有研宄的编码器和解码器均采用LSTM。序列到序列模型??的具体结构如图2.4所示。??编码器?乃Vj?yh]??L?〇?A?〇?心〇??h%?〇?h%?〇??r^J?\?;脅獅聊麵*?下文向??X???????:二:、__■■■_■■?■丨■■丨__?二?量c??广〇?广〇?r?〇?〇?〇?〇??Xi-i?I???Xj?|???Xi+2?I???????????[???:??|??OOP?oil?OOP?oil?OOP?Ql?解码器??图2.4基本序列到序列模型??该模型目标是优化解码器端生成词的条件概率/I?W..A),其??中y?=?b^,3;2,.表示解码器端的输出序列,/表示解码器序列的总长度,??1?=?^1,\,...,\}表示编码器端的输入序列,/表示编码器序列的总长度,该条件??概率的具体计算方式如公式2.4所示。??i??々Ia七,.?”&)?=?(公式?2.4)??/=2??编码器的用途是将输入的原文档由LSTM进行重新加工并输出一组隐状态,??其目标是提取出原文档的语义等信息。一个原文档D是由一系列句子组成,句子??是由一系列词组成,每个词都被映射成分布式向量PF作为模型的输入。该分布式??向量初始化有三种方式:第一
【参考文献】:
期刊论文
[1]主题关键词信息融合的中文生成式自动摘要研究[J]. 侯丽微,胡珀,曹雯琳. 自动化学报. 2019(03)
[2]基于论文关键词和篇章结构的自动文摘抽取方法[J]. 孙晓腾,李学明. 现代计算机(专业版). 2018(13)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[4]基于超图的文本摘要与关键词协同抽取研究[J]. 莫鹏,胡珀,黄湘冀,何婷婷. 中文信息学报. 2015(06)
[5]基于动态主题建模的Web论坛文档摘要[J]. 任昭春,马军,陈竹敏. 计算机研究与发展. 2012(11)
[6]基于LDA主题特征的自动文摘方法[J]. 张明慧,王红玲,周国栋. 计算机应用与软件. 2011(10)
[7]一种基于LexRank算法的改进的自动文摘系统[J]. 纪文倩,李舟军,巢文涵,陈小明. 计算机科学. 2010(05)
[8]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[9]基于理解的自动文摘系统设计[J]. 王开铸,吴岩,刘挺. 电脑学习. 1996(02)
本文编号:3146428
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.2?LSTM结构图??从图2.2中可知,LSTM的信息输入到输出需要通过三种门控机制,分别为??
简单的门控机制的网络GRU,该模型和LSTM的最主要的区别为:将遗忘门和输??入门合成一个单一的更新门,同时还混合了细胞状态和隐状态。因此GRU比标准??的LSTM简洁很多。具体的结构信息如图2.3所示。?????穿??>?■?v.:::..;,,.?1?1?nn?ar?nr??@?(5??图2.3?GRU结构图??由图2.3和图2.2对比可以清晰的发现,GRU将门控机制由三个缩减为两个,??同时去除了细胞状态C。虽然GRU变得更简洁,但其效果与LSTM差别不大,因??此也是当前非常流行的一种简洁而有效的网络。具体的计算方式如公式2.3所示。??rt?=a(JVrh,_x+Urx,])??(公式?2.3)??z,=G(W:ht_^U.x,)??h,=(}-zl)*hl-l?+?zl*h,??其中,r,是重置门,¥是候选记忆单元,由重置门r,对前一时间步的隐状态进行??重置并通过tanh激活函数激活而得到。是更新门
控RNN比普通的RNN更有效,如LSTM和GRU等,双向的RNN比单向的RNN??更有效,因此本文的所有研宄的编码器和解码器均采用LSTM。序列到序列模型??的具体结构如图2.4所示。??编码器?乃Vj?yh]??L?〇?A?〇?心〇??h%?〇?h%?〇??r^J?\?;脅獅聊麵*?下文向??X???????:二:、__■■■_■■?■丨■■丨__?二?量c??广〇?广〇?r?〇?〇?〇?〇??Xi-i?I???Xj?|???Xi+2?I???????????[???:??|??OOP?oil?OOP?oil?OOP?Ql?解码器??图2.4基本序列到序列模型??该模型目标是优化解码器端生成词的条件概率/I?W..A),其??中y?=?b^,3;2,.表示解码器端的输出序列,/表示解码器序列的总长度,??1?=?^1,\,...,\}表示编码器端的输入序列,/表示编码器序列的总长度,该条件??概率的具体计算方式如公式2.4所示。??i??々Ia七,.?”&)?=?(公式?2.4)??/=2??编码器的用途是将输入的原文档由LSTM进行重新加工并输出一组隐状态,??其目标是提取出原文档的语义等信息。一个原文档D是由一系列句子组成,句子??是由一系列词组成,每个词都被映射成分布式向量PF作为模型的输入。该分布式??向量初始化有三种方式:第一
【参考文献】:
期刊论文
[1]主题关键词信息融合的中文生成式自动摘要研究[J]. 侯丽微,胡珀,曹雯琳. 自动化学报. 2019(03)
[2]基于论文关键词和篇章结构的自动文摘抽取方法[J]. 孙晓腾,李学明. 现代计算机(专业版). 2018(13)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
[4]基于超图的文本摘要与关键词协同抽取研究[J]. 莫鹏,胡珀,黄湘冀,何婷婷. 中文信息学报. 2015(06)
[5]基于动态主题建模的Web论坛文档摘要[J]. 任昭春,马军,陈竹敏. 计算机研究与发展. 2012(11)
[6]基于LDA主题特征的自动文摘方法[J]. 张明慧,王红玲,周国栋. 计算机应用与软件. 2011(10)
[7]一种基于LexRank算法的改进的自动文摘系统[J]. 纪文倩,李舟军,巢文涵,陈小明. 计算机科学. 2010(05)
[8]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[9]基于理解的自动文摘系统设计[J]. 王开铸,吴岩,刘挺. 电脑学习. 1996(02)
本文编号:3146428
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3146428.html
最近更新
教材专著