融合注意力机制的抽取式摘要生成技术研究
发布时间:2021-01-12 04:20
移动互联网的不断发展使得互联网用户的群体不断壮大,网络上产生了海量的数据信息并且呈爆发式增长。你可能曾经遇到过这样的场景:当你因为对文章的标题感兴趣而点开文章连接时,你发现文章的内容与标题毫无关系。如何快速在这些海量信息中准确的获取我们需要的文本信息具有非常重要的研究价值,文本摘要生成技术作为解决这一难题的重要技术应运而生。随着对信息技术和人工智能研究的不断深入,文本自动摘要生成技术成为主流方法,但现有的文本自动摘要生成方法仍然存在很多问题。在预训练的词嵌入表示方面,如何更准确的表示句子的核心内容一直是自然语言处理领域需要突破的难题。从生成摘要的质量来看,一般存在句子冗余或者句间、词间语义结构混乱的问题。在模型泛化方面,有监督的模型训练方法依赖于人工书写的摘要,所以利用有限的人工摘要训练出针对多领域的摘要自动生成模型,是让自动摘要生成技术广泛应用的关键点。针对上述问题,本文主要做了以下三个方面的工作:文章分析了端到端模型中常用的解码器模型,通过分析我们发现,常见解码器存在信息遗失问题,可以通过添加注意力模型来解决这一问题。所以本文首先采用了有更好表征能力的BERT(Bidirectio...
【文章来源】:山东师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
Transformer的整体结构(a)和模型中每一个编码器、解码器的内部结构(b)
山东师范大学硕士学位论文15编码器的主要作用使将输入的数据转化为词向量,然后结合词的位置信息整合成为前馈网络的输入,位置信息的转化公式由公式2-1、2-2表示。2()=(100002)(2-1)2+!()=cos(100002)(2-2)其中,是向量的位置id为的位置映射出来的词向量。除了通过利用位置输入与位置向量加权表示的位置信息以外,自注意力机制还利用了、、三个向量来表示该词与其他词之间的相关程度:ttention(,,)=(√)(2-3)BERT词嵌入模型之所以能横扫各大NLP任务,其中一个很大的原因就在于微调机制的提出,它使BERT词嵌入模型可以具有更好的泛化性。所谓的微调机制是指模型在通过训练集对第一个任务进行训练以后得到模型所需的参数,在对第二个任务进行训练的时候模型的初始化参数采用第一任务的参数,然后在后续训练过程中不断的进行变化以达到第图2-2编码器的内部结构
山东师范大学硕士学位论文16二个任务的训练需求。预训练的方法针对于下游任务训练集数据量较少的情况,通过利用先前任务的参数直接进行训练和调参,经此步骤BERT模型就有较好的泛化性。据此我们可以利用已有的新闻数据集通过BERT模型将其泛化到数据量较少的其他类型文章,来用更小的数据量训练其他类型文章的自动摘要模型。2.2双向长短期记忆网络(Bi-LSTM)在NLP任务中我们都是将文本信息转化为序列进行输入的,所以在解码器模型中我们也一般使用在序列建模问题上表现较好的RNN或是LSTM来解决问题。在本章中我们先介绍RNN然后在此基础上来介绍LSTM。循环神经网络(RNN)中最重要的就是隐藏状态(hiddenstate)h层,隐藏状态层的功能就是通过对序列数据进行特征提取转化为输出。图2-3为循环神经网络的基本结构。根据图2-3所示,我们可以看出之所以叫它循环网络是因为网络的每一次输出都包含了前一次图2-3循环神经网络结构图2-4RNN网络的端到端模型
【参考文献】:
期刊论文
[1]基于层次聚类和TextRank的视频摘要[J]. 张璐,吕进来. 计算机工程与设计. 2019(07)
[2]一种基于加权网络和句子窗口方案的信息检索模型[J]. 陆伟,程齐凯. 情报学报. 2013 (08)
[3]基于局部主题关键句抽取的自动文摘方法[J]. 徐超,王萌,何婷婷,张勇. 计算机工程. 2008(22)
硕士论文
[1]基于TextRank的文本自动摘要研究[D]. 李娜娜.山东师范大学 2019
[2]基于图的生成式文本摘要技术研究[D]. 孙建东.北京邮电大学 2019
[3]基于语义层次聚类的多文档自动摘要研究[D]. 胡立.华南理工大学 2014
本文编号:2972138
【文章来源】:山东师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
Transformer的整体结构(a)和模型中每一个编码器、解码器的内部结构(b)
山东师范大学硕士学位论文15编码器的主要作用使将输入的数据转化为词向量,然后结合词的位置信息整合成为前馈网络的输入,位置信息的转化公式由公式2-1、2-2表示。2()=(100002)(2-1)2+!()=cos(100002)(2-2)其中,是向量的位置id为的位置映射出来的词向量。除了通过利用位置输入与位置向量加权表示的位置信息以外,自注意力机制还利用了、、三个向量来表示该词与其他词之间的相关程度:ttention(,,)=(√)(2-3)BERT词嵌入模型之所以能横扫各大NLP任务,其中一个很大的原因就在于微调机制的提出,它使BERT词嵌入模型可以具有更好的泛化性。所谓的微调机制是指模型在通过训练集对第一个任务进行训练以后得到模型所需的参数,在对第二个任务进行训练的时候模型的初始化参数采用第一任务的参数,然后在后续训练过程中不断的进行变化以达到第图2-2编码器的内部结构
山东师范大学硕士学位论文16二个任务的训练需求。预训练的方法针对于下游任务训练集数据量较少的情况,通过利用先前任务的参数直接进行训练和调参,经此步骤BERT模型就有较好的泛化性。据此我们可以利用已有的新闻数据集通过BERT模型将其泛化到数据量较少的其他类型文章,来用更小的数据量训练其他类型文章的自动摘要模型。2.2双向长短期记忆网络(Bi-LSTM)在NLP任务中我们都是将文本信息转化为序列进行输入的,所以在解码器模型中我们也一般使用在序列建模问题上表现较好的RNN或是LSTM来解决问题。在本章中我们先介绍RNN然后在此基础上来介绍LSTM。循环神经网络(RNN)中最重要的就是隐藏状态(hiddenstate)h层,隐藏状态层的功能就是通过对序列数据进行特征提取转化为输出。图2-3为循环神经网络的基本结构。根据图2-3所示,我们可以看出之所以叫它循环网络是因为网络的每一次输出都包含了前一次图2-3循环神经网络结构图2-4RNN网络的端到端模型
【参考文献】:
期刊论文
[1]基于层次聚类和TextRank的视频摘要[J]. 张璐,吕进来. 计算机工程与设计. 2019(07)
[2]一种基于加权网络和句子窗口方案的信息检索模型[J]. 陆伟,程齐凯. 情报学报. 2013 (08)
[3]基于局部主题关键句抽取的自动文摘方法[J]. 徐超,王萌,何婷婷,张勇. 计算机工程. 2008(22)
硕士论文
[1]基于TextRank的文本自动摘要研究[D]. 李娜娜.山东师范大学 2019
[2]基于图的生成式文本摘要技术研究[D]. 孙建东.北京邮电大学 2019
[3]基于语义层次聚类的多文档自动摘要研究[D]. 胡立.华南理工大学 2014
本文编号:2972138
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2972138.html
最近更新
教材专著