基于深度学习的文本生成技术研究

发布时间:2022-12-17 12:49
  随着互联网技术的飞速发展,人们每天面临着大量的文本信息。为了帮助人们在信息爆炸的互联网环境下,可以快速的找到自己想要的信息。本文我们通过复述生成技术扩展查询项,以此来提高信息检索系统的性能,同时使用自动文本摘要技术对检索返回的结果进行分析和关键信息的提取,并生成一段更简洁的文本。本文我们探究了基于深度学习的文本生成技术,并在复述生成和面向特定领域的自动文本摘要生成任务上开展研究。针对复述生成任务目前存在的训练语料不足,生成的多样性不足等问题我们提出解决方案。针对特定领域的文本摘要生成任务中存在的集外词,长距离关系依赖以及摘要文本结构不符合领域特点等问题我们提出解决方案。本文的主要工作如下:(1)设计并实现一种基于序列到序列的复述生成模型,该模型由特征提取器BERT和文本生成器LSTM组成。具有多层双向注意的特征提取器可以从输入文本中提取深层次的语言特征信息。文本生成器是一个预训练好的语言模型,用于生成复述文本。由于现有的复述语料不足且不平衡,因此复述生成模型通常难以生成流利且准确的复述文本。为了解决该问题,我们通过结合基于特征和基于微调融合训练的方式来训练我们的模型。同时,本文我们提出... 

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究工作的背景与意义
    1.2 国内外研究现状
        1.2.1 复述生成研究现状
        1.2.2 文本摘要研究现状
    1.3 本文主要研究内容
    1.4 论文组织架构
第二章 文本生成相关研究技术
    2.1 自然语言处理的表示学习
        2.1.1 连续词袋模型
        2.1.2 跳字模型
        2.1.3 FastText词向量
        2.1.4 动态词向量技术
    2.2 基于Seq2Seq with attention的深度学习模型
    2.3 语言模型
        2.3.1 自回归语言模型ARLM
        2.3.2 自编码语言模型AELM
    2.4 本章小节
第三章 基于深度学习的文本复述生成
    3.1 引言
    3.2 模型描述
        3.2.1 特征提取器BERT
        3.2.2 文本生成器LSTM
        3.2.3 基于Bert to LSTM with Attention的模型结构
    3.3 基于上下文理解的篇章级复述
    3.4 融合基于feature-based和基于fine-tuning的训练模式
    3.5 基于多样性集束搜索的生成策略
    3.6 实验
        3.6.1 数据集
        3.6.2 评价指标
        3.6.3 训练模型
        3.6.4 实验结果及分析
    3.7 本章小结
第四章 基于深度学习的文本摘要生成
    4.1 引言
    4.2 模型描述
        4.2.1 基于模式框架的文本摘要生成问题的形式化描述
        4.2.2 基于Separate Dual-encoder to Decoder的模型结构
    4.3 完全基于注意力机制的模型结构
    4.4 基于子词粒度的文本表示
    4.5 实验
        4.5.1 数据集
        4.5.2 评价指标
        4.5.3 训练模型
            4.5.3.1 基于梯度累积的更新方式
            4.5.3.2 基于Boosting方法的模型融合
        4.5.4 实验结果及分析
    4.6 本章小结
第五章 全文总结与展望
    5.1 总结
    5.2 展望
致谢
参考文献


【参考文献】:
期刊论文
[1]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖.  网信军民融合. 2019(09)
[2]5G时代的信息传播变革[J]. 付玉辉.  中国传媒科技. 2017(04)
[3]自动文本摘要技术综述[J]. 胡侠,林晔,王灿,林立.  情报杂志. 2010(08)
[4]信息爆炸与信息加工增值[J]. 刘勇.  青年记者. 2010(07)
[5]Boosting算法综述[J]. 董乐红,耿国华,高原.  计算机应用与软件. 2006(08)



本文编号:3719957

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3719957.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6bfac***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com