基于深度学习的文本摘要分析与实现
发布时间:2022-02-16 05:18
随着互联网技术的飞速发展以及社交媒体的不断普及,新闻、舆论、热点等各种各样的信息呈井喷式发展,飞速发展带来了信息过载的问题,并且随着生产生活节奏的加快,人们没有足够的时间来阅读所有搜索到的信息。高质量的文章摘要是提升信息获取效率的有效手段。随着深度学习的兴起和计算机硬件水平的提升,越来越多的学者利用深度学习进行自动文章摘要生成。本文对传统中文分词算法提出优化改进并提出基于双层注意力机制的中文摘要算法,最后将改进后的中文分词算法应用于中文摘要算法中。传统中文分词算法无法高效地提取局部特征,且无法进行并行计算。针对以上两点本文提出了一种基于简单CNN与BI-LSTM相结合的中文分词算法,既解决了CNN无法提取时序特征的问题,也解决了BI-LSTM无法提取局部特征以及无法进行并行计算的问题,同时利用权重共享的全连接操作保证了依据上下文信息获取分类结果,实现了一输入对多输出的目的。实验结果表明,该算法具有可行性且模型输出结果的准确率可达98%。传统Seq2Seq摘要生成模型大多采用LSTM网络和单层注意力机制实现,由此会导致模型计算缓慢且注意力矩阵中包含信息不足。针对以上问题,本文在以下几方面...
【文章来源】:北方工业大学北京市
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 自动文章摘要分类
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究内容
1.5 本文的组织架构
第二章 基于简单CNN与 BI-LSTM的中文分词算法设计
2.1 相关技术
2.1.1 词向量
2.1.2 CNN网络
2.1.3 LSTM网络
2.2 基于简单CNN与 BI-LSTM的中文分词模型搭建
2.2.1 基于简单CNN与 BI-LSTM的中文分词模型概况
2.2.2 标注方法
2.2.3 词嵌入层
2.2.4 简单CNN层
2.2.5 BI-LSTM层
2.2.6 全连接层
2.3 实验结果与分析
2.3.1 数据集
2.3.2 超参数
2.3.3 实验结果与分析
2.4 本章小结
第三章 基于双层注意力机制的文章摘要算法设计
3.1 相关技术
3.1.1 Seq2Seq序列模型
3.1.2 注意力机制
3.2 抽取式摘要生成方法简介
3.2.1 基于TF-IDF统计方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于双层注意力机制的文章摘要模型搭建
3.3.1 基于双层注意力机制的文章摘要模型概况
3.3.2 字向量与词向量的构建
3.3.3 编码器的搭建
3.3.4 解码器的搭建
3.3.5 双层注意力机制的设计与摘要生成
3.4 本章小结
第四章 实验测评与结果分析
4.1 测评方法
4.2 数据集与超参数
4.3 实验结果分析
4.3.1 传统抽取式摘要模型实验结果
4.3.2 输入向量组合方式对比分析
4.3.3 基于双层注意力机制的文章摘要模型与其它模型实验结果对比分析
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
在学期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J]. 姚茂建,李晗静,吕会华,姚登峰. 现代电子技术. 2019(01)
[2]融合attention机制的BI-LSTM-CRF中文分词模型[J]. 黄丹丹,郭玉翠. 软件. 2018(10)
[3]基于SVM的中文文本分类系统的设计与实现[J]. 张昭楠. 电子设计工程. 2016(16)
[4]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞. 计算机科学. 2016(06)
[5]基于信息抽取和文本生成的自动文摘系统设计[J]. 刘挺,吴岩,王开铸. 情报学报. 1997(S1)
[6]基于全信息词典的自动文摘系统研究与实现[J]. 杨晓兰,钟义信. 情报学报. 1997(06)
[7]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[8]自然语言篇章理解及基于理解的自动文摘研究[J]. 王建波,王开铸. 中文信息学报. 1992(02)
硕士论文
[1]基于深度学习的短文本自动摘要方法研究[D]. 董晨西.北京邮电大学 2019
[2]基于卷积神经网络的中文自动文摘方法[D]. 喻丽.哈尔滨工业大学 2017
[3]基于子主题划分和句子特征的中文文档自动文摘研究[D]. 张佳培.重庆大学 2012
[4]基于统计与语义分析的多文档自动摘要研究[D]. 宋宣辰.中国科学技术大学 2009
本文编号:3627578
【文章来源】:北方工业大学北京市
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 自动文章摘要分类
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究内容
1.5 本文的组织架构
第二章 基于简单CNN与 BI-LSTM的中文分词算法设计
2.1 相关技术
2.1.1 词向量
2.1.2 CNN网络
2.1.3 LSTM网络
2.2 基于简单CNN与 BI-LSTM的中文分词模型搭建
2.2.1 基于简单CNN与 BI-LSTM的中文分词模型概况
2.2.2 标注方法
2.2.3 词嵌入层
2.2.4 简单CNN层
2.2.5 BI-LSTM层
2.2.6 全连接层
2.3 实验结果与分析
2.3.1 数据集
2.3.2 超参数
2.3.3 实验结果与分析
2.4 本章小结
第三章 基于双层注意力机制的文章摘要算法设计
3.1 相关技术
3.1.1 Seq2Seq序列模型
3.1.2 注意力机制
3.2 抽取式摘要生成方法简介
3.2.1 基于TF-IDF统计方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于双层注意力机制的文章摘要模型搭建
3.3.1 基于双层注意力机制的文章摘要模型概况
3.3.2 字向量与词向量的构建
3.3.3 编码器的搭建
3.3.4 解码器的搭建
3.3.5 双层注意力机制的设计与摘要生成
3.4 本章小结
第四章 实验测评与结果分析
4.1 测评方法
4.2 数据集与超参数
4.3 实验结果分析
4.3.1 传统抽取式摘要模型实验结果
4.3.2 输入向量组合方式对比分析
4.3.3 基于双层注意力机制的文章摘要模型与其它模型实验结果对比分析
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
在学期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J]. 姚茂建,李晗静,吕会华,姚登峰. 现代电子技术. 2019(01)
[2]融合attention机制的BI-LSTM-CRF中文分词模型[J]. 黄丹丹,郭玉翠. 软件. 2018(10)
[3]基于SVM的中文文本分类系统的设计与实现[J]. 张昭楠. 电子设计工程. 2016(16)
[4]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞. 计算机科学. 2016(06)
[5]基于信息抽取和文本生成的自动文摘系统设计[J]. 刘挺,吴岩,王开铸. 情报学报. 1997(S1)
[6]基于全信息词典的自动文摘系统研究与实现[J]. 杨晓兰,钟义信. 情报学报. 1997(06)
[7]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[8]自然语言篇章理解及基于理解的自动文摘研究[J]. 王建波,王开铸. 中文信息学报. 1992(02)
硕士论文
[1]基于深度学习的短文本自动摘要方法研究[D]. 董晨西.北京邮电大学 2019
[2]基于卷积神经网络的中文自动文摘方法[D]. 喻丽.哈尔滨工业大学 2017
[3]基于子主题划分和句子特征的中文文档自动文摘研究[D]. 张佳培.重庆大学 2012
[4]基于统计与语义分析的多文档自动摘要研究[D]. 宋宣辰.中国科学技术大学 2009
本文编号:3627578
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3627578.html
最近更新
教材专著