基于高级语义的通用型文本生成迁移学习
发布时间:2021-01-14 23:18
自然语言处理是人机交互领域的重要核心,是近些年人工智能领域快速发展的方向之一,吸引着研究人员的关注。在深度神经网络被提出后,尤其以序列到序列模型(Seq2Seq)为代表的模型被广泛应用在文本生成任务中,该方向相关的各项任务,如机器翻译、文本等,性能都得到了较大的提高。然而,受限于神经网络数据驱动的特点,相关的自然语言模型只能在构建在规模巨大的语料库上。一旦将已经预训练完毕的模型应用在其他语料,模型的效果会发生明显的削弱。因此,本文对自然语言模型中广泛使用的序列到序列(Seq2Seq)结构进行改进,增加了能够利用迁移学习的功能结构,使其能够利用先验知识或不同任务的预训练模型。相比于原始的Seq2Seq结构,该模型能够利用先验知识和已构建好的预训练模型,即使在小规模数据上也能够达到较好的效果。本文在若干著名的公开数据集和爬虫抓取的网络社区数据集上进行了实验,实验结果表明,本文提出的迁移学习Seq2Seq模型能够很好地利用先验知识以及自然语言任务中学习到的通用知识,在多项指标上均超过了现有的先进算法,实现了迁移学习在不同数据集、不同任务上的普适性。本文所衍生的部分研究被学术界认可并发表了相关...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2.1循环神经网络与一般的神经网络类似,都由输入层、隐含层、输出层组成
0????????图2.1循环神经网络与一般的神经网络类似,都由输入层、隐含层、输出层组成。但循环神经网??络在隐含层之间有一条连向下一步的数据通路。循环神经网络利用这种结构可以按步处理数据,其??展开后的形状如上阁右表示。??按照时序将循环神经网络展开如图2.1所示,可以看到循环神经网络的每一步输出都是??依赖上一步的结果,其前向传播的公式:??ht?—?^(Whhht ̄\?+?WxhXt?+?b)?(2.2)??in?=?a(Whyht)?(2.3)??其中代表循环神经网络中使用的激活函数,常用的两种激活函数Sigmoid,?Tanh如??图2.2所示,?表示艺步时的隐含层的结果,灸是i步时刻的输出层的结果,是输人层??10??
有一个当前的输人值与其对应。一方面,这种情况限制了可变长度数据的生成;另一方面,??研究者们也希望每一个输出数据都能够利用输人序列的所有内容,而非仅仅是某一步之前??的结果。在此情景下,8也81?^6]:与〇1〇各自提出了3692869模型17;8],如图2.3。??Q?Q?@?(傷>:??,r?^?t??编码器(Encoder)_?1?g量化转麵和j??[圖立画P3SEI]??I?f?ID化+f向量化4嵌入)1丨?秦涵Decoder)??I?j? ̄—「…一一?……|?-?<S1ART>??[how?]?[?are?]?[?you?]?[??]??图2.3?Seq2Seq模型结构,包含编码器,解码器两个主要部分。??Seq2Seq模型包括Encoder和Decoder两大组成部分,分别负责处理输出数据以及得??到输出数据。省略细节后,整体结构如下所示:??S?—?EncoderCX)??(2-8)??Y?=?Decoder?(S)??其中X?=?{xu2,".,;^}表示输入序列,Y?=?{的,2/2,...,机}表示输出序列。*5便是上??下文向量。Encoder和Decoder是编码器和解码器,其具体结构可根据任务调整,本文使??用多层RNN模型。??Seq2Seq中的输入数据X经过Encoder,被编码为固定长度大小的上下文向量??(上??下文向量Context?Vector
本文编号:2977741
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2.1循环神经网络与一般的神经网络类似,都由输入层、隐含层、输出层组成
0????????图2.1循环神经网络与一般的神经网络类似,都由输入层、隐含层、输出层组成。但循环神经网??络在隐含层之间有一条连向下一步的数据通路。循环神经网络利用这种结构可以按步处理数据,其??展开后的形状如上阁右表示。??按照时序将循环神经网络展开如图2.1所示,可以看到循环神经网络的每一步输出都是??依赖上一步的结果,其前向传播的公式:??ht?—?^(Whhht ̄\?+?WxhXt?+?b)?(2.2)??in?=?a(Whyht)?(2.3)??其中代表循环神经网络中使用的激活函数,常用的两种激活函数Sigmoid,?Tanh如??图2.2所示,?表示艺步时的隐含层的结果,灸是i步时刻的输出层的结果,是输人层??10??
有一个当前的输人值与其对应。一方面,这种情况限制了可变长度数据的生成;另一方面,??研究者们也希望每一个输出数据都能够利用输人序列的所有内容,而非仅仅是某一步之前??的结果。在此情景下,8也81?^6]:与〇1〇各自提出了3692869模型17;8],如图2.3。??Q?Q?@?(傷>:??,r?^?t??编码器(Encoder)_?1?g量化转麵和j??[圖立画P3SEI]??I?f?ID化+f向量化4嵌入)1丨?秦涵Decoder)??I?j? ̄—「…一一?……|?-?<S1ART>??[how?]?[?are?]?[?you?]?[??]??图2.3?Seq2Seq模型结构,包含编码器,解码器两个主要部分。??Seq2Seq模型包括Encoder和Decoder两大组成部分,分别负责处理输出数据以及得??到输出数据。省略细节后,整体结构如下所示:??S?—?EncoderCX)??(2-8)??Y?=?Decoder?(S)??其中X?=?{xu2,".,;^}表示输入序列,Y?=?{的,2/2,...,机}表示输出序列。*5便是上??下文向量。Encoder和Decoder是编码器和解码器,其具体结构可根据任务调整,本文使??用多层RNN模型。??Seq2Seq中的输入数据X经过Encoder,被编码为固定长度大小的上下文向量??(上??下文向量Context?Vector
本文编号:2977741
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2977741.html
最近更新
教材专著