一种基于细粒度文本分析的可控文本生成模型框架

发布时间:2020-12-11 05:29
  自然语言处理中很多任务都可以被看作是序列标注(Sequence labeling,SL)问题而得以有效地处理。现有研究大多将这些任务作为独立的序列标注问题来解决,或者以多个辅助任务实现对某个特定目标任务的性能提高,这些研究忽略了自然语言处理中多个任务之间可能存在的潜在关系和影响。为此,本文提出了一种基于自注意力机制的联合序列标注框架模型(self-attention based joint sequence model,SA-JSL),该模型可充分利用多个序列标注任务之间的可能存在的相互作用和影响,从而实现同时促进和提高各个序列标注任务性能。具体来说,该框架模型通过将自注意力机制和联合标签机制融合,将多个序列任务转换为一个统一的序列标注任务来处理,有效地利用率这些任务之间可能存在的潜在关系,从而实现多个任务相互促进和提高。该联合模型与自注意力机制相结合,获取更加丰富的上下文信息,从而提高模型的性能。为了验证模型的有效性,在七个常见的公开数据集上进行了大量的实验,所提联合学习模型分别在中文分词(Chinese Word Segmentation,CWS)和词性(Part-of-Speec... 

【文章来源】:中原工学院河南省

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

一种基于细粒度文本分析的可控文本生成模型框架


整体框架

原理图,注意力,机制,原理


11图2.1软注意力机制工作原理(2)自注意力机制之前提到软注意力机制需要输入序列和输出序列是等长的,而在文本生成中,输入和输出是不等长的,前面的软注意力机制是作用在输入与输出文本之间,自注意力机制[43]是用多头(Multi-head)注意力机制代替了RNN搭建了整个模型框架,它记录了文本生成中机器翻译任务的性能改进。在编码器和解码器中大量的使用了多头自注意力机制,这样自注意力机制就作用于输入序列内部,或者作用于输出序列内部,这种做法就可以捕获到同一个句子或者段落里间隔较远的单词之间的联系。所以自注意力机制可以建立序列内部的长距离依赖关系。图2.2中的Q,K,V分别为Query,Key,Value,这三者经过线性变换后进入多头注意力机制中,每个多头注意力机制是一个放缩点积注意力机制,要进行多次,这就成为了多头注意力机制,那么里面的每个词都要和该句子中的所有词进行注意力计算。目的是学习句子内部的词依赖关系,捕获句子的内部结构。

结构图,注意力,多头,机制


12图2.2多头注意力机制结构图通过对各种注意力机制的优缺点分析,在本文中选取了自注意力机制进一步提取文本的特征,本文中选取的自注意力机制是Multi-headattention(多头注意力机制),可以多角度,多层次的获取文本自身的特征,该注意力机制的结构是Transformer的多头注意力机制有助于序列标注任务的识别。2.1.3中文分词中文相较于英文有其自己的独特性和特殊性,英文里的是通过空格来将词与词之间分割开的,而在中文里却不能这样识别,中文里的字符都是整体连续的。中文分词[44]的定义是将完整的文本通过语意划分为独立的词。这个处理的过程就叫做分词。中文较于英文,结构更复杂,语义更丰富,所以在分词这方面会更困难。尽管在做任务时也可以不需要分词,可以基于字符去做下游任务,然而这样就无法获取更多的语义信息,字所表达的信息是很有限的,很多上下文信息都无法准确的体现出来,而词所给信息则会给的更加详细,能够更加客观地描述某个事物或者某种情感。2.1.4中文命名实体识别命名实体识别(NamedEntityRecognition,NER)是指识别出非结构化文本中出现的包括人


本文编号:2909981

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2909981.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5a585***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com