中文生成式摘要模型的OOV和长距离依赖问题研究

发布时间:2021-01-20 10:35
  自动摘要作为一种文本解析的重要工具,它可以从海量数据中提取出文本的主题信息,实现从冗余文本到简洁文本的快速转换。得益于深度学习技术在自然语言处理(Natural Language Processing,NLP)领域的快速发展,使得基于深度学习技术的生成式摘要已经成为现阶段摘要技术的研究热点。对于生成式自动摘要而言,其是一种序列到序列(sequence-to-sequence,seq2seq)的模式,而将注意力机制(Attention Mechanism)融合到seq2seq以实现对输入序列中某些词的重点关注,称之为seq2seq+attention框架。因此,本文以seq2seq+attention框架为基础,融入复制机制和Input-feeding方法来改善原始模型的OOV(Out-of-Vocabulary)以及注意力决定准确率的问题。同时引入Bert预训练语言模型和Transformer模型以改善句子的长距离依赖问题。本文的主要研究内容如下:(1)考虑到seq2seq+attention框架在生成摘要时需要先构建一张词表,神经网络通过自主学习后,从该词表中选取概率最大的词作为输出... 

【文章来源】:南华大学湖南省

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

中文生成式摘要模型的OOV和长距离依赖问题研究


LSTM的内部结构

中文生成式摘要模型的OOV和长距离依赖问题研究


词的one-hot表示法

过程图,过程


23图2.11beam-search过程(1)从step1到step2的计算过程为:图2.12beam-search过程(2)从step2到step3的计算过程为:图2.13beam-search过程(3)从step3到step4的计算过程为:图2.14beam-search过程(4)

【参考文献】:
期刊论文
[1]基于改进TextRank算法的中文文本摘要提取[J]. 徐馨韬,柴小丽,谢彬,沈晨,王敬平.  计算机工程. 2019(03)
[2]近70年文本自动摘要研究综述[J]. 刘家益,邹益民.  情报科学. 2017(07)
[3]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞.  计算机科学. 2016(06)
[4]深度学习研究与进展[J]. 孙志远,鲁成祥,史忠植,马刚.  计算机科学. 2016(02)
[5]自动文本摘要技术综述[J]. 胡侠,林晔,王灿,林立.  情报杂志. 2010(08)
[6]一种基于TFIDF方法的中文关键词抽取算法[J]. 徐文海,温有奎.  情报理论与实践. 2008(02)

硕士论文
[1]基于潜在语义分析的文本摘要技术研究[D]. 王英杰.山东大学 2014



本文编号:2988889

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2988889.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3ed8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com