面向可解释性双向编码语言模型的文本分类研究
发布时间:2021-03-25 04:50
深度学习作为大数据时代数据分析的重要手段,近些年来得到了国内外科研界的广泛关注。文本分类任务是在给定的分类体系中,按照一定的规则,将文本分到某个或几个类别中。文本分类应用场景一般包括新闻分类、情感分类、社交网站评论分类等,因此,为了实现对互联网中海量文本数据的计算,人工智能领域研究者提出具有深层网络的深度学习算法来解决文本分类问题,对于当今社会各界的科技进步具有重要意义。信息时代的迅猛发展,面对海量非结构化的文本数据,研究者和科技人员们所面临的问题不再是如何获得所需要的文本数据,而是如何在大数据背景下从海量文本数据中准确高效地获取满足需求的信息。本文梳理机器学习和深度学习在文本分类任务上的发展历史,进而引出近年来预训练微调体系结构中的BERT模型,详细介绍了BERT模型的内部机制和训练方法,进一步了解了语言模型在预训练和微调方面的多种技术方法,经过深入的研究,本文提出在BERT模型的基础上做出几点创新和改进,使得本文模型能够有效的解决BERT模型预训练方法的不足,通过一些技巧增加模型的可解释性,在下游任务针对文本分类做微调,得到面向可解释性双向编码语言模型,本文工作归纳如下:(1)因式...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
xh)(与ostyxhC)),((的关系图
第2章相关技术概述14加快学习算法的一个办法是随时间慢慢减少学习率,称为学习率衰减,在学习初期,学习率a较大,学习相对较快,当开始收敛的时候,学习率a变小,学习步伐慢一些。拆分出不同的mini-batch,第一次遍历训练集叫做第一代。第二次就是第二代,依此类推,将a学习率设为011anumepochdecayratea++=,(decay-rate称为衰减率,epoch-num为代数,0a为初始学习率)。深度学习的优化技巧对于模型的训练至关重要,这些优化指标也是评估深度学习模型好坏的重要标准,在实践过程中,根据不同的模型在不同的应用场景中,使用的优化方法各有不同,为达到模型最好实验性能,需要在不断调参的过程中,找出最优化方案。2.2基于深度学习的文本分类深度学习在自然语言处理领域中的研究已经将高深莫测的人类语言撕开一层神秘的面纱。其中是“词向量”技术是进行基于深度学习的文本分类任务的敲门砖,将单词用“词向量”的方式表示可谓是将深度学习算法引入自然语言处理领域的一个核心技术。2.2.1词向量自然语言处理相关任务中,首要任务是语言符号数字化。向量是人对机器输入的主要方式。词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量将词表示为一个向量。在NLP中最直观最简单的词表示方法是One-Hot向量,如图2.5所示。图2.5One-hot词向量表示形式
第2章相关技术概述16图2.6FastText模型结构图TextCNN是Kim在2014年的论文[2]中用于解决句子分类问题的模型。将CNN应用到文本分类任务,卷积操作中利用多个不同大小的卷积核来提取句子中的特征信息(类似于多窗口大小的n-gram),从而能够更好地捕捉局部相关性,TextCNN模型结构如图2.7所示。图2.7TextCNN模型结构图Bi-LSTM介绍了LSTM用于文本分类问题的设计,在自然语言处理中最常用的RNN能够更好的表达上下文信息。在文本分类任务中,双向LSTM可以捕获变长且双向的“n-gram”信息,Bi-LSTM模型结构如图2.8所示。
本文编号:3099059
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
xh)(与ostyxhC)),((的关系图
第2章相关技术概述14加快学习算法的一个办法是随时间慢慢减少学习率,称为学习率衰减,在学习初期,学习率a较大,学习相对较快,当开始收敛的时候,学习率a变小,学习步伐慢一些。拆分出不同的mini-batch,第一次遍历训练集叫做第一代。第二次就是第二代,依此类推,将a学习率设为011anumepochdecayratea++=,(decay-rate称为衰减率,epoch-num为代数,0a为初始学习率)。深度学习的优化技巧对于模型的训练至关重要,这些优化指标也是评估深度学习模型好坏的重要标准,在实践过程中,根据不同的模型在不同的应用场景中,使用的优化方法各有不同,为达到模型最好实验性能,需要在不断调参的过程中,找出最优化方案。2.2基于深度学习的文本分类深度学习在自然语言处理领域中的研究已经将高深莫测的人类语言撕开一层神秘的面纱。其中是“词向量”技术是进行基于深度学习的文本分类任务的敲门砖,将单词用“词向量”的方式表示可谓是将深度学习算法引入自然语言处理领域的一个核心技术。2.2.1词向量自然语言处理相关任务中,首要任务是语言符号数字化。向量是人对机器输入的主要方式。词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量将词表示为一个向量。在NLP中最直观最简单的词表示方法是One-Hot向量,如图2.5所示。图2.5One-hot词向量表示形式
第2章相关技术概述16图2.6FastText模型结构图TextCNN是Kim在2014年的论文[2]中用于解决句子分类问题的模型。将CNN应用到文本分类任务,卷积操作中利用多个不同大小的卷积核来提取句子中的特征信息(类似于多窗口大小的n-gram),从而能够更好地捕捉局部相关性,TextCNN模型结构如图2.7所示。图2.7TextCNN模型结构图Bi-LSTM介绍了LSTM用于文本分类问题的设计,在自然语言处理中最常用的RNN能够更好的表达上下文信息。在文本分类任务中,双向LSTM可以捕获变长且双向的“n-gram”信息,Bi-LSTM模型结构如图2.8所示。
本文编号:3099059
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3099059.html
最近更新
教材专著