基于注意力机制的文本生成式摘要方法研究

发布时间:2021-05-08 16:46
  伴随互联网和信息技术的飞速发展,互联网上的数据和文件呈爆炸式的增长,信息超载问题愈益严重。因此,如何从海量的数据中快速、准确获取有用信息变得重要。文本自动摘要技术是一种从文本文档、文章或博客等较大的文本集合中产生简洁而重要的信息的方法,已成为国内外的研究热点。的研究集中在抽取式摘要,从原文中抽取句子表示摘要,但不够精炼,表示效果差强人意。而生成式摘要是通过理解文本内容,从而生成新句子,与抽取式摘要相比,有着更为灵活的词汇组合和表达方式。基于此,本文将分析文本底层编码特征、文本词向量表示、注意力模型机制、等,从底层到模型结构全方位来展开对生成式摘要问题的研究。主要完成了以下工作:(1)采用了一种基于知识迁移融合多特征的文档词向量表示方法。词向量作为文本特征表示的基础工作,其表达的准确率直接影响各个上层模型结果的性能。用词嵌入技术训练词向量时,越多的文本数据训练出的词向量质量越高,所以本文用维基百科外部数据集,采用知识迁移的方法在任务训练集上进行增量训练,从而训练改善词向量质量。同时,在文本分类和摘要研究中,文本词的一些其它特征如词频逆文档频率等也被广泛使用,并取得不错的效果。为进一步提高... 

【文章来源】:昆明理工大学云南省

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文研究内容和组织结构
        1.3.1 本文的研究内容
        1.3.2 本文的组织结构
第二章 文本摘要相关基本理论
    2.1 预处理
    2.2 TFIDF
    2.3 词嵌入
        2.3.1 word2vec连续词袋模型
        2.3.2 word2vec的 Skip-gram模型
    2.4 知识迁移技术
    2.5 文本摘要评价方法
        2.5.1 ROUGE-N:N-gram共现统计
        2.5.2 ROUGE-L:最长的共同子序列
        2.5.3 句子级别LCS
    2.6 本章小结
第三章 基于知识迁移融合多种特征的文档词向量表示方法
    3.1 基于知识迁移融合多种特征的文档词向量表示方法
        3.1.1 模型思想
        3.1.2 外部数据集词向量
        3.1.3 知识迁移
        3.1.4 其它特征
        3.1.5 多种特征融合
    3.2 知识迁移融合多种特征的文档词向量应用实例
    3.3 实验
        3.3.1 数据集介绍
        3.3.2 编程环境
        3.3.3 实验参数
        3.3.4 评价指标
        3.3.5 实验对比与分析
    3.4 本章小结
第四章 基于注意力机制的指针覆盖文本摘要
    4.1 序列到序列的神经网络框架
        4.1.1 端到端序列转换模型
        4.1.2 注意力机制
    4.2 基于注意力机制的指针覆盖文本摘要模型
        4.2.1 融合传统特征的底层词表示
        4.2.2 层次注意力文档结构
        4.2.3 引入混合指针生成器网络
        4.2.4 覆盖机制
    4.3 实验
        4.3.1 数据集
        4.3.2 编程环境
        4.3.3 参数设置
        4.3.4 结果与分析
    4.4 本章小结
第五章 自动文本摘要原型系统
    5.1 原型系统设计
    5.2 系统实现
    5.3 本章小结
第六章 总结与展望
    6.1 论文总结
    6.2 工作展望
致谢
参考文献
附录 A攻读硕士期间发表论文及软件著作权
    发表论文
    申请软件著作权
附录 B攻读硕士期间参与项目
    纵向项目
    横向项目


【参考文献】:
期刊论文
[1]第41次《中国互联网络发展状况统计报告》发布[J].   中国广播. 2018(03)
[2]深度学习研究与进展[J]. 孙志远,鲁成祥,史忠植,马刚.  计算机科学. 2016(02)
[3]深度学习研究进展[J]. 郭丽丽,丁世飞.  计算机科学. 2015(05)
[4]一种改进的TFIDF网页关键词提取方法[J]. 李静月,李培峰,朱巧明.  计算机应用与软件. 2011(05)
[5]TFIDF算法研究综述[J]. 施聪莺,徐朝军,杨晓江.  计算机应用. 2009(S1)
[6]一种基于TFIDF方法的中文关键词抽取算法[J]. 徐文海,温有奎.  情报理论与实践. 2008(02)



本文编号:3175666

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3175666.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99b70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com