基于CNN的中文文本摘要自动生成方法研究
发布时间:2021-04-23 21:56
技术是指通过算法对文本信息高度概括后生成更加精炼、语义通顺的摘要,目的是为了在文本类数据中快速的筛选信息,解决信息冗余过载的问题。当前文本摘要的研究大多集中在传统抽取式技术,难以完成在大数据环境下的具体工作,得益于深度学习技术的不断发展,本文采用CNN与LSTM的方法实现了基于Seq2seq-attention机制模型的改进,并在Sogou CS新闻数据上,利用ROUGE评价指标,设置了4组实验进行对比和评估。首先,本文详细介绍了传统文本摘要方法。并以Textrank和TF-IDF两种较为突出的算法为例,详细梳理传统方法的原理及存在的不足,并将两种传统方法的结果与改进后模型的结果作比较。其次,由于传统抽取方法在文本摘要中未考虑上下文语义特征的信息,因此本文对基于传统Seq2seq-attention机制模型的框架拆分研究,并根据深度学习算法将CNN框架用在编码器,LSTM框架用在解码器,从而实现了模型改进,之后在同一数据集上与传统的基于RNN框架的Seq2seq-attention机制模型对比。实验表明,改进后的模型在ROUGE评分上高于传统生成式模型,可以表明改进后的模型能够运用在生...
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景与研究意义
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
第二章 相关知识
2.1 文本摘要技术介绍
2.2 相关模型介绍
2.3 词向量表示方法
2.4 本章小结
第三章 文本摘要生成模型的构建
3.1 数据集预处理
3.2 评价指标
3.3 Word2Vec词向量模型构建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型构建
3.7 实验
3.8 本章小结
第四章 文本摘要系统的设计与实现
4.1 需求分析
4.2 系统设计
4.3 系统实现及测试
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
在学期间公开发表论文及著作情况
【参考文献】:
期刊论文
[1]异构文本数据转换中XML解析方法对比研究[J]. 何卓桁,刘志勇,李璐,李长明,张琳. 计算机工程. 2020(07)
[2]基于Seq2seq模型的推荐应用研究[J]. 陈俊航,徐小平,杨恒泓. 计算机科学. 2019(S1)
[3]融合词汇特征的生成式摘要模型[J]. 江跃华,丁磊,李娇娥,杜皓晅,高凯. 河北科技大学学报. 2019(02)
[4]面向非任务型对话系统的人工标注中文数据集[J]. 李菁,张海松,宋彦. 中文信息学报. 2019(03)
[5]循环神经网络研究综述[J]. 杨丽,吴雨茜,王俊丽,刘义理. 计算机应用. 2018(S2)
[6]基于深度学习的文本自动摘要方案[J]. 张克君,李伟男,钱榕,史泰猛,焦萌. 计算机应用. 2019(02)
[7]文本摘要研究进展与趋势[J]. 明拓思宇,陈鸿昶. 网络与信息安全学报. 2018(06)
[8]文本自动摘要研究进展[J]. 韦福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神经网络并行化研究综述[J]. 朱虎明,李佩,焦李成,杨淑媛,侯彪. 计算机学报. 2018(08)
[10]一种话题敏感的抽取式多文档摘要方法[J]. 应文豪,李素建,穗志方. 中文信息学报. 2017(06)
本文编号:3156114
【文章来源】:东北师范大学吉林省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【文章目录】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景与研究意义
1.2 国内外研究现状
1.3 论文研究内容
1.4 论文组织结构
第二章 相关知识
2.1 文本摘要技术介绍
2.2 相关模型介绍
2.3 词向量表示方法
2.4 本章小结
第三章 文本摘要生成模型的构建
3.1 数据集预处理
3.2 评价指标
3.3 Word2Vec词向量模型构建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型构建
3.7 实验
3.8 本章小结
第四章 文本摘要系统的设计与实现
4.1 需求分析
4.2 系统设计
4.3 系统实现及测试
4.4 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
致谢
在学期间公开发表论文及著作情况
【参考文献】:
期刊论文
[1]异构文本数据转换中XML解析方法对比研究[J]. 何卓桁,刘志勇,李璐,李长明,张琳. 计算机工程. 2020(07)
[2]基于Seq2seq模型的推荐应用研究[J]. 陈俊航,徐小平,杨恒泓. 计算机科学. 2019(S1)
[3]融合词汇特征的生成式摘要模型[J]. 江跃华,丁磊,李娇娥,杜皓晅,高凯. 河北科技大学学报. 2019(02)
[4]面向非任务型对话系统的人工标注中文数据集[J]. 李菁,张海松,宋彦. 中文信息学报. 2019(03)
[5]循环神经网络研究综述[J]. 杨丽,吴雨茜,王俊丽,刘义理. 计算机应用. 2018(S2)
[6]基于深度学习的文本自动摘要方案[J]. 张克君,李伟男,钱榕,史泰猛,焦萌. 计算机应用. 2019(02)
[7]文本摘要研究进展与趋势[J]. 明拓思宇,陈鸿昶. 网络与信息安全学报. 2018(06)
[8]文本自动摘要研究进展[J]. 韦福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神经网络并行化研究综述[J]. 朱虎明,李佩,焦李成,杨淑媛,侯彪. 计算机学报. 2018(08)
[10]一种话题敏感的抽取式多文档摘要方法[J]. 应文豪,李素建,穗志方. 中文信息学报. 2017(06)
本文编号:3156114
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3156114.html
最近更新
教材专著