基于神经网络的抽取式摘要系统的研究与实现
发布时间:2023-05-31 20:51
就是一个高度概括原文重要信息的过程。摘要算法大致可以分为两类:抽取式摘要和生成式摘要。抽取式摘要的目的是从原文中选择一些重要的短语或句子来组成摘要。生成式摘要是利用算法生成文本的另一种表达,所用到的词汇表述并不一定来自于原文。自动文本摘要能够帮助很多下游任务(例如新闻摘要,社会媒体等)。近些年一些基于神经网络的工作大都将抽取式摘要任务当成序列标注来建模。这就存在训练和测试的不一致性问题:训练时当成分类任务,测试时当成排序任务。我们提出一种基于神经网络的回归模型,让模型在训练的时候就直接拟合ROUGE得到其分数用来做排序。我们的回归模型在短文本摘要的时候效果很好,但是在生成长摘要的时候效果没有明显收益。这主要因为自动文本摘要系统经常会生成带有冗余的摘要。考虑摘要中的如下两个句子:“衬衫的价格是多少”和“衬衫卖多少钱”。这两句话虽然不同但表达了相同的含义,因此具有冗余信息。我们对文本中存在大量重复观点的现象做了经验性分析。现有的大多数抽取式摘要系统通常独立建模句子打分和冗余惩罚。这些模型首先根据句子的重要程度打分,然后在选择句子的过程中考虑惩罚冗余信息。我们提出一种可以同时建模句子打分和冗...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源、背景及意义
1.2 国内外研究进展及成果
1.2.1 基于无监督学习的抽取式摘要
1.2.2 基于有监督学习的抽取式摘要
1.3 本文的主要研究内容
第2章 基于分类的抽取式摘要
2.1 任务定义
2.2 现有分类模型调研
2.2.1 基于支持向量机的抽取式摘要模型
2.2.2 基于条件随机场的抽取式摘要模型
2.2.3 基于循环神经网络的抽取式摘要模型
2.3 分类模型存在的问题及分析
2.4 本章小结
第3章 基于回归的抽取式摘要
3.1 任务定义
3.2 模型架构
3.2.1 输入层
3.2.2 基于Attention的句子表示层
3.2.3 基于Attention的篇章表示层
3.2.4 回归层
3.3 实验
3.3.1 基本设置
3.3.2 数据集
3.3.3 评价指标
3.3.4 基线模型
3.3.5 实验结果与分析
3.4 本章小结
第4章 基于排序的抽取式摘要
4.1 摘要中的冗余问题
4.2 解决冗余问题的相关工作
4.3 问题定义
4.4 模型架构
4.4.1 句子表示层
4.4.2 篇章表示层
4.4.3 句子抽取层
4.5 实验
4.5.1 数据集构造
4.5.2 实验设置
4.5.3 实验结果与分析
4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3825981
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题来源、背景及意义
1.2 国内外研究进展及成果
1.2.1 基于无监督学习的抽取式摘要
1.2.2 基于有监督学习的抽取式摘要
1.3 本文的主要研究内容
第2章 基于分类的抽取式摘要
2.1 任务定义
2.2 现有分类模型调研
2.2.1 基于支持向量机的抽取式摘要模型
2.2.2 基于条件随机场的抽取式摘要模型
2.2.3 基于循环神经网络的抽取式摘要模型
2.3 分类模型存在的问题及分析
2.4 本章小结
第3章 基于回归的抽取式摘要
3.1 任务定义
3.2 模型架构
3.2.1 输入层
3.2.2 基于Attention的句子表示层
3.2.3 基于Attention的篇章表示层
3.2.4 回归层
3.3 实验
3.3.1 基本设置
3.3.2 数据集
3.3.3 评价指标
3.3.4 基线模型
3.3.5 实验结果与分析
3.4 本章小结
第4章 基于排序的抽取式摘要
4.1 摘要中的冗余问题
4.2 解决冗余问题的相关工作
4.3 问题定义
4.4 模型架构
4.4.1 句子表示层
4.4.2 篇章表示层
4.4.3 句子抽取层
4.5 实验
4.5.1 数据集构造
4.5.2 实验设置
4.5.3 实验结果与分析
4.6 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
本文编号:3825981
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3825981.html