基于深度学习的文本摘要相关技术研究及应用

发布时间:2022-07-13 10:50
  大数据时代的到来伴随着信息爆炸的风险,如何快速、准确地从互联网上海量信息中获取所需信息已成为亟待解决的问题。自动文本摘要技术将文本中的核心内容提取出来并生成简洁的描述,是解决信息过载的有效方法。近几年,深度学习的快速发展给自动文本摘要带来新的思路,生成式文本摘要方法应运而生,这种方法生成的文本可读性更强且容易理解。目前,基于深度神经网络的文本摘要方法多采用编码器-解码器结构,编码器生成源文本的语义表示,解码器用于生成连续可读的摘要序列,但这种方法存在生成未登录词、生成序列重复、原始语义表示不充分等问题。针对这些问题,本文在基于深度神经网络上的文本摘要方法进行探究,提出一种基于随机集束搜索的序列到序列的摘要生成方法和基于语言模型的摘要生成方法,并将提出的方法在数据集上进行实验,实验结果证实了模型的有效性。本文主要工作分成两部分,具体如下:(1)设计并实现一种基于增强语义和改进集束搜索的序列到序列摘要生成方法。主要内容包括:一种混合编码结构,通过门限卷积网络来捕获原始文本的近距离上下文信息,得到上下文的语义表示,随后利用双向循环神经网络学习文本的长距离依赖信息和时序信息;一种随机集束搜索算... 

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状及应用
    1.3 文本摘要面临的问题和挑战
    1.4 论文的研究内容和贡献
    1.5 论文的主要结构安排
第二章 相关技术和算法研究
    2.1 词向量表示技术
        2.1.1 基于one-hot编码表示
        2.1.2 基于TF-IDF表示
        2.1.3 基于神经网络分布式表示
        2.1.4 动态词向量技术
    2.2 深度神经网络相关技术
        2.2.1 卷积神经网络
        2.2.2 循环神经网络
        2.2.3 Transformer网络
    2.3 解码搜索算法
        2.3.1 贪心搜索
        2.3.2 集束搜索
    2.4 本章小结
第三章 基于随机集束搜索的seq2seq摘要生成方法
    3.1 问题形式化分析
    3.2 基准模型
        3.2.1 seq2seq框架
        3.2.2 注意力机制
        3.2.3 基线模型结构
    3.3 增强语义模型
        3.3.1 增强语义的编码结构
        3.3.2 改进集束搜索算法
    3.4 实验
        3.4.1 数据集介绍及预处理
        3.4.2 实验环境和参数
        3.4.3 模型的评估指标
        3.4.4 实验结果和分析
    3.5 本章小结
第四章 基于语言模型的摘要生成方法
    4.1 问题形式化分析
    4.2 摘要模型构建
        4.2.1 模型结构
        4.2.2 修改掩码方式
        4.2.3 预训练模型微调
    4.3 实验
        4.3.1 数据集介绍
        4.3.2 实验环境和参数设置
        4.3.3 基本模型和评估指标
        4.3.4 实验结果与分析
    4.4 本章小结
第五章 总结与展望
    5.1 全文总结
    5.2 后续工作展望
致谢
参考文献
攻读硕士期间取得研究成果


【参考文献】:
期刊论文
[1]基于改进TextRank算法的中文文本摘要提取[J]. 徐馨韬,柴小丽,谢彬,沈晨,王敬平.  计算机工程. 2019(03)

硕士论文
[1]维吾尔语单文档自动文摘算法研究[D]. 买哈铺热提·外力.新疆大学 2014



本文编号:3659906

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3659906.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa90c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com