面向神经语言模型中softmax层改进方法研究

发布时间:2021-04-30 03:02
  神经语言模型(Neural Language Model,NLM)作为自然语言处理(Natural Language Processing,NLP)领域里的基础任务,其主要目的是利用词的分布式表示,对自然语言序列建模,以克服统计语言模型中的维数灾难问题。其研究成果被广泛地运用到自然语言处理的其他任务如信息检索、对话系统等。特别是对机器翻译(Machine Translation,MT)、文本生成(Text Generation)而言,神经语言模型就是系统实现的核心组成部件。在神经语言模型中,softmax层作为模型的输出模块,其计算结果是反映模型性能优劣的主要依据。本文从神经语言模型的softmax层入手,探索改进语言模型的方法以及为下游任务特别是机器翻译提供有价值的信息。已有的神经语言模型在构建目标函数时,通常仅考虑使softmax层预测分布尽可能地逼近目标词分布,并将softmax层预测分布与目标词分布的交叉熵作为唯一的损失函数。然而,语言序列有着其固有的差异性:给定一个句子序列,任意选取两个不同位置的词,其为同一个词的概率极低。为了显式地利用这一差异性,本文提出了一个基于上下文差... 

【文章来源】:西华大学四川省

【文章页数】:56 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 语言模型研究现状
        1.2.2 神经机器翻译研究现状
        1.2.3 机器翻译评价指标研究现状
    1.3 论文主要研究内容
    1.4 本文结构安排
2 相关背景知识
    2.1 softmax
    2.2 循环神经语言模型
        2.2.1 长短期记忆(LSTM)神经网
        2.2.2 交叉熵
        2.2.3 The Recurent Neural Network Regularization
    2.3 神经机器翻译
        2.3.1 自注意力(self-attention)机制
        2.3.2 基于多头自注意力的机器翻译模型
        2.3.3 BLEU
    2.4 本章小结
3 基于文本差异性的神经语言模型
    3.1 文本语言固有的差异性
    3.2 模型训练
    3.3 模型介绍
    3.4 实验环境
        3.4.1 软件、硬件环境
        3.4.2 语料数据
    3.5 实验方法介绍
        3.5.1 基于间隔采样的方法
        3.5.2 基于随机采样的方法
    3.6 评价指标
    3.7 实验结果与分析
        3.7.1 基于间隔采样(ISP)的实验结果
        3.7.2 基于随机采样(RSP)的实验结果
        3.7.3 实验分析
    3.8 本章小结
4 机器翻译中目标词的softmax层预测概率及正确率研究
    4.1 模型介绍
    4.2 模型训练
    4.3 实验环境
    4.4 softmax层预测正确率对翻译模型质量的评估
        4.4.1 质量评估实验方法介绍
        4.4.2 实验结果及分析
    4.5 基于softmax层预测的机器翻译多样性
        4.5.1 多样性探索方法介绍
        4.5.2 机器翻译多样性的存在及成因
        4.5.3 机器翻译多样性的特点探索
    4.6 本章小结
结论与展望
参考文献
攻读硕士学位期间发表论文及科研成果
致谢



本文编号:3168712

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3168712.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c3a80***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com