基于深度学习的短文自动摘要生成算法研究
发布时间:2020-10-16 04:11
随着移动设备的快速发展,信息的传播途径逐渐增多,时效性越来越强。面对这些海量信息,如何对其进行快速、全面的掌握显得非常重要;自动摘要技术就是一个很好的解决方案。使用自动摘要技术,可通过简短的文字描述就能够覆盖绝大多数信息。在社会迅速发展的今天,快速掌握主要信息能够帮助人们提供提高信息获取速度,提高工作效率,从而创造更多的社会价值。本论文的主要工作分为以下三个部分:(1)采用seq2seq+attention(sequence to sequence with attention)生成摘要。seq2seq+attention采用编码和解码方式,首先对文本内容进行学习,增添attention注意力向量作为中间语义向量加入解码部分的参数,共同决定解码模块中某时刻的生成词。该模型主要由以下两部分构成:编码语言模型对输入序列进行编码,解码语言模型进行解码;在解码的每一个时刻动态生成中间语义向量C,t时刻生成词语由t-1时刻的输出词结合当前时刻t产生的中间语义向量C共同决定该时刻词的生成。(2)seq2seq+attention模型的优化。对该模型进行改进,联合注意力向量使用修正概率和覆盖机制,解决了大部分在摘要生成中出现的重复问题和未登陆词OOV(out of vocabulary)现象。(3)实验部分采用ROUGE自动评测和人工评测两种方式进行生成摘要评测,实验结果显示,本文提出的生成式摘要算法在ROUGE-1、ROUGE-2值和人工评测方式上均相对高于传统的抽取式摘要评测值。实验结果表明,基于seq2seq+attention改进的生成式在文档摘要的完整性、连贯性均有很大程度的提升。
【学位单位】:西安科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP18
【部分图文】:
西安科技大学工程硕士学位论文1.3 课题研究目标及内容本文研究的目标是:针对互联网新闻社交平台的新闻,应用自动摘要生成技术自新闻生成摘要。该摘要不仅能够覆盖主题,而且在一定字数范围内,可以让用户快读并掌握,从而为用户节省大量阅读时间。现有的抽取式摘要主要是对原文中的句子进行重要性打分,然后对所有句子进行要性权值排序,权值得分 TOPK(K 为摘要句子个数)句子作为原文本摘要。该方法存在的问题是根据 TOPK 获得句子在逻辑上有一定问题,前后语义关联强,最终的摘要结果不能准确反映样本主题。针对现有的抽取式摘要的问题,本文提出了一种基于深度学习理论基础的生成式动摘要方法。首先,使用 CNN 文本分类方式对原文本进行分类,得到该新闻的类别;其次对类别的新闻基于 Seq2seq+attention 方式训练生成模型,并对未登陆词 OOV(out ofvocabulary),生成词语重复等问题作出算法改进。本文主要研究内容如图 1.1:
engineering)。过去面对一个人工智能问题,一般的处理方式是分治为预处理、特征提取与选择、分类器设计等若干步骤。以图像识别为例,分治法的动机是将图像识别的母问题分解为简单、可控且清晰的若干小的子问题。但这种方法尽管可在子问题上得到最优解,但其并不意味着就能得到目标问题的总正确解。应对这种过去方法的缺陷,深度学习使用另一种范式(paradigm),即“端到端”学习方式,将整个流程完全交给深度学习模型直接学习从原始输入到期望输出的映射。相比分治策略,“端到端”的学习方式具有协同增效的优势,获得目标问题的总正确解的几率更大。如图 2.1 所示,对深度模型而言模型的训练过程可以简单抽象为从原始数据向最终目标的直接“拟合”,其输入数据是无需任何人工处理干预的原始样本,中间则是堆叠的众多操作层,将之整体看作一个复杂的函数fCNN,最终损失函数由数据损失(data loss)和模型参数的正则化损失(regularization loss)共同组成,其训练过程是在最终损失驱动下对模型进行参数更新并将误差反向传播至网络各层。在训练过程中,中间的这些部件将原始数据映射为特征(即特征学习),然后再输出为样本标记(即目标任务,如分类)。下面我们就来看看组成fCNN的各个基本组成部件。
卷积的定义是:某一时的刻输出是之前很多次输入乘以各自的衰减系数之后的叠加而形成的某一点的输出,然后再把不同时刻的输出点放在一起,形成一个函数,这就是卷积。在数字信号中,卷积就是信号 A 与信号 B 在不同时间的内积,时间长度就是卷积结果的自变量,但是在 CNN 中卷积的作用是突出特征,将更明显的特征提取出来。卷积层(Convolution Neural Network layers)通过卷积核与输入图像矩阵、文本矩阵进行卷机操作,一般为离散卷积操作。当步长为 1 时,卷积核按照步长从左到右,从上到下依次进行操作。可以看出卷积是一种局部特征提取简化过程,通过一定大小的卷积核作用于局部以获取局部信息。卷积网络中通过网络训练学出的卷积核参数,除了可以实现类似的横向、纵向边缘滤波器,还可以实现任意角度的边缘滤波器。在更多复杂条件的多个不同类型滤波器(卷积核)的组合都可以包含在一个足够复杂的深层卷积神经网络中。通过这些复杂条件的多个不同类型滤波器(卷积核)的组合的操作的进行,基本而一般的模式会逐渐被统合为具有复杂涵义之集合,成为一个“概念”来表示,并用这个概念来作为标准来处理后续的待处理样本输出结果。颇有“盲人摸象”后,将各自结果集集成之意。
【参考文献】
本文编号:2842740
【学位单位】:西安科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TP18
【部分图文】:
西安科技大学工程硕士学位论文1.3 课题研究目标及内容本文研究的目标是:针对互联网新闻社交平台的新闻,应用自动摘要生成技术自新闻生成摘要。该摘要不仅能够覆盖主题,而且在一定字数范围内,可以让用户快读并掌握,从而为用户节省大量阅读时间。现有的抽取式摘要主要是对原文中的句子进行重要性打分,然后对所有句子进行要性权值排序,权值得分 TOPK(K 为摘要句子个数)句子作为原文本摘要。该方法存在的问题是根据 TOPK 获得句子在逻辑上有一定问题,前后语义关联强,最终的摘要结果不能准确反映样本主题。针对现有的抽取式摘要的问题,本文提出了一种基于深度学习理论基础的生成式动摘要方法。首先,使用 CNN 文本分类方式对原文本进行分类,得到该新闻的类别;其次对类别的新闻基于 Seq2seq+attention 方式训练生成模型,并对未登陆词 OOV(out ofvocabulary),生成词语重复等问题作出算法改进。本文主要研究内容如图 1.1:
engineering)。过去面对一个人工智能问题,一般的处理方式是分治为预处理、特征提取与选择、分类器设计等若干步骤。以图像识别为例,分治法的动机是将图像识别的母问题分解为简单、可控且清晰的若干小的子问题。但这种方法尽管可在子问题上得到最优解,但其并不意味着就能得到目标问题的总正确解。应对这种过去方法的缺陷,深度学习使用另一种范式(paradigm),即“端到端”学习方式,将整个流程完全交给深度学习模型直接学习从原始输入到期望输出的映射。相比分治策略,“端到端”的学习方式具有协同增效的优势,获得目标问题的总正确解的几率更大。如图 2.1 所示,对深度模型而言模型的训练过程可以简单抽象为从原始数据向最终目标的直接“拟合”,其输入数据是无需任何人工处理干预的原始样本,中间则是堆叠的众多操作层,将之整体看作一个复杂的函数fCNN,最终损失函数由数据损失(data loss)和模型参数的正则化损失(regularization loss)共同组成,其训练过程是在最终损失驱动下对模型进行参数更新并将误差反向传播至网络各层。在训练过程中,中间的这些部件将原始数据映射为特征(即特征学习),然后再输出为样本标记(即目标任务,如分类)。下面我们就来看看组成fCNN的各个基本组成部件。
卷积的定义是:某一时的刻输出是之前很多次输入乘以各自的衰减系数之后的叠加而形成的某一点的输出,然后再把不同时刻的输出点放在一起,形成一个函数,这就是卷积。在数字信号中,卷积就是信号 A 与信号 B 在不同时间的内积,时间长度就是卷积结果的自变量,但是在 CNN 中卷积的作用是突出特征,将更明显的特征提取出来。卷积层(Convolution Neural Network layers)通过卷积核与输入图像矩阵、文本矩阵进行卷机操作,一般为离散卷积操作。当步长为 1 时,卷积核按照步长从左到右,从上到下依次进行操作。可以看出卷积是一种局部特征提取简化过程,通过一定大小的卷积核作用于局部以获取局部信息。卷积网络中通过网络训练学出的卷积核参数,除了可以实现类似的横向、纵向边缘滤波器,还可以实现任意角度的边缘滤波器。在更多复杂条件的多个不同类型滤波器(卷积核)的组合都可以包含在一个足够复杂的深层卷积神经网络中。通过这些复杂条件的多个不同类型滤波器(卷积核)的组合的操作的进行,基本而一般的模式会逐渐被统合为具有复杂涵义之集合,成为一个“概念”来表示,并用这个概念来作为标准来处理后续的待处理样本输出结果。颇有“盲人摸象”后,将各自结果集集成之意。
【参考文献】
相关期刊论文 前5条
1 胡侠;林晔;王灿;林立;;自动文本摘要技术综述[J];情报杂志;2010年08期
2 王建波;王开铸;;自动文摘系统—句子级信息处理研究[J];情报科学;1991年06期
3 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
4 耿焕同;蔡庆生;赵鹏;于琨;;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
5 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
相关硕士学位论文 前2条
1 官宸宇;面向事件的社交媒体文本自动摘要研究[D];武汉大学;2017年
2 陈晓萍;基于主题的短文本自动摘要抽取研究与应用[D];电子科技大学;2017年
本文编号:2842740
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2842740.html