基于序列到序列模型的中文生成式自动文摘研究

发布时间：2021-04-19 00:05

　　随着近几年文本数据的迅速增长,人们的生活充斥着海量的文本信息,如新闻、博客、邮件以及会议报告等。从大量的文本信息中提炼出重点内容已成为解决信息过剩的迫切需求,而自动文摘为此提供了一个解决方案。自动文摘的主要目的是将原文档的主要内容浓缩成一个精简摘要,提高人类快速获取文档信息的效率。早期自动文摘领域的工作大多集中在基于统计学和图排序算法的抽取式自动文摘。近年来,随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式自动文摘到生成式自动文摘的方向演化,以达到生成更高质量摘要的目的。本文的主要工作集中在基于序列到序列模型的生成式自动文摘模型的研究,目前该方面的研究仍面临着诸多挑战,例如基本序列到序列模型的常见问题（词表溢出和信息重复）、获取原文档重点信息能力欠缺以及生成摘要不合理等问题,针对这些问题本文提出了相应的解决方案,主要的研究工作如下:首先,本文采用Subword分词算法处理序列到序列模型的词表溢出问题,该方法将词分割成更细粒度的子词单元,显著减小了词表长度,缓解了词表溢出。同时,本文将已生成摘要的注意力机制嵌入序列到序列模型中以缓解信息重复问题,该机制通过回顾已生成的摘...

【文章来源】：华中师范大学湖北省 211工程院校教育部直属院校

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

图２．２?ＬＳＴＭ结构图??从图２．２中可知，ＬＳＴＭ的信息输入到输出需要通过三种门控机制，分别为??

结构图,机制,结构图,重置

简单的门控机制的网络ＧＲＵ，该模型和ＬＳＴＭ的最主要的区别为：将遗忘门和输??入门合成一个单一的更新门，同时还混合了细胞状态和隐状态。因此ＧＲＵ比标准??的ＬＳＴＭ简洁很多。具体的结构信息如图２．３所示。???？?穿??＞?■?ｖ．：：：．．；，，．?１?１?ｎｎ?ａｒ?ｎｒ??＠?（５??图２．３?ＧＲＵ结构图??由图２．３和图２．２对比可以清晰的发现，ＧＲＵ将门控机制由三个缩减为两个，??同时去除了细胞状态Ｃ。虽然ＧＲＵ变得更简洁，但其效果与ＬＳＴＭ差别不大，因??此也是当前非常流行的一种简洁而有效的网络。具体的计算方式如公式２．３所示。??ｒｔ?＝ａ（ＪＶｒｈ，＿ｘ＋Ｕｒｘ，］）??（公式?２．３）??ｚ，＝Ｇ（Ｗ：ｈｔ＿＾Ｕ．ｘ，）??ｈ，＝（｝－ｚｌ）＊ｈｌ－ｌ?＋?ｚｌ＊ｈ，??其中，ｒ，是重置门，￥是候选记忆单元，由重置门ｒ，对前一时间步的隐状态进行??重置并通过ｔａｎｈ激活函数激活而得到。是更新门

序列,基本序列,优化解,概率

控ＲＮＮ比普通的ＲＮＮ更有效，如ＬＳＴＭ和ＧＲＵ等，双向的ＲＮＮ比单向的ＲＮＮ??更有效，因此本文的所有研宄的编码器和解码器均采用ＬＳＴＭ。序列到序列模型??的具体结构如图２．４所示。??编码器?乃Ｖｊ?ｙｈ］??Ｌ?〇?Ａ?〇?心〇??ｈ％?〇?ｈ％?〇??ｒ＾Ｊ?＼?；脅獅聊麵＊?下文向??Ｘ???????：二：、＿＿■■■＿■■?■丨■■丨＿＿?二?量ｃ??广〇?广〇?ｒ?〇?〇?〇?〇??Ｘｉ－ｉ?Ｉ???Ｘｊ?｜???Ｘｉ＋２?Ｉ???????????［???：??｜??ＯＯＰ?ｏｉｌ?ＯＯＰ?ｏｉｌ?ＯＯＰ?Ｑｌ?解码器??图２．４基本序列到序列模型??该模型目标是优化解码器端生成词的条件概率／Ｉ?Ｗ．．Ａ），其??中ｙ?＝?ｂ＾，３；２，．表示解码器端的输出序列，／表示解码器序列的总长度，??１?＝?＾１，＼，．．．，＼｝表示编码器端的输入序列，／表示编码器序列的总长度，该条件??概率的具体计算方式如公式２．４所示。??ｉ??々Ｉａ七，．？”＆）?＝?（公式?２．４）??／＝２??编码器的用途是将输入的原文档由ＬＳＴＭ进行重新加工并输出一组隐状态，??其目标是提取出原文档的语义等信息。一个原文档Ｄ是由一系列句子组成，句子??是由一系列词组成，每个词都被映射成分布式向量ＰＦ作为模型的输入。该分布式??向量初始化有三种方式：第一

【参考文献】：
期刊论文
[1]主题关键词信息融合的中文生成式自动摘要研究[J]. 侯丽微,胡珀,曹雯琳.  自动化学报. 2019(03)
[2]基于论文关键词和篇章结构的自动文摘抽取方法[J]. 孙晓腾,李学明.  现代计算机(专业版). 2018(13)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[4]基于超图的文本摘要与关键词协同抽取研究[J]. 莫鹏,胡珀,黄湘冀,何婷婷.  中文信息学报. 2015(06)
[5]基于动态主题建模的Web论坛文档摘要[J]. 任昭春,马军,陈竹敏.  计算机研究与发展. 2012(11)
[6]基于LDA主题特征的自动文摘方法[J]. 张明慧,王红玲,周国栋.  计算机应用与软件. 2011(10)
[7]一种基于LexRank算法的改进的自动文摘系统[J]. 纪文倩,李舟军,巢文涵,陈小明.  计算机科学. 2010(05)
[8]OA中文文献自动摘要系统[J]. 王永成,许慧敏.  情报学报. 1997(02)
[9]基于理解的自动文摘系统设计[J]. 王开铸,吴岩,刘挺.  电脑学习. 1996(02)

本文编号：3146428

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3146428.html

上一篇：基于双目视觉的危险化学品库内堆垛测距关键技术的研究
下一篇：三维颅骨相似性度量和性别鉴定方法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|