基于深度学习的汉语依存分析方法研究

发布时间：2020-04-13 05:51

【摘要】：依存句法分析是自然语言处理的一项关键基础技术,其目标是根据依存语法理论识别出词语之间的语义修饰关系并建立相应的依存句法树。依存句法树具有表现形式简洁高效等优点,成为计算机理解自然语言的重要表达形式,被广泛应用于机器翻译等自然语言处理任务中。与英语和日语的依存句法分析水平相比,目前汉语依存分析的精度尚且不高,其主要原因有两方面。一方面,汉语的词语之间没有分词标记且汉字构词能力较强,容易分词错误;另一方面,词形变化、格助词和从句连词等表层信息的缺失,使得词性标注和依存句法分析的歧义性更大,增大了任务的分析难度。在实际应用时,汉语依存句法分析需要分词和词性标注的结果,这两项任务的准确度直接影响依存句法分析的精度。对此,研究人员提出汉语分词、词性标注、依存句法分析的联合模型,通过三项任务的并行处理以及中间结果的相互利用来解决任务间的错误传播问题。因此,如何利用三项任务的中间结果作为特征,相互提携同步提升精度成为本领域的探索热点。本文旨在研究基于深度学习的三项任务联合处理的汉语依存分析方法。我们利用深度学习自动学习特征和获取全局信息的优势,实现基于转移的依存分析联合模型。本文的主要工作和贡献总结如下:(1)提出依存子树编码方法。依存分析联合模型在分析过程中生成的依存子树结构复杂多样且数量不固定,使得依存子树特征的利用变得复杂困难。目前基于特征工程的方法和基于神经网络的方法仅能提取分析栈栈顶的部分依存节点信息用于决策,而无法利用分析栈内的所有信息。针对这一问题,本文将分析栈的结构与神经网络结合,提出Stack-Tree LSTM依存子树编码方法,以获得完整的依存句法树特征,同时避免繁琐的特征工程。评测实验结果表明,本文所提方法可以提升长句和长距离的依存分析精度,在分词、词性标注、依存分析上的精度均超过已有的基于神经网络的依存分析联合模型,F1值分别达到97.78%、93.51%和79.66%。(2)设计实现基于位置的汉字语义表示学习方法。汉字作为汉语的语义单元,其语义依赖于所出现的语境,而传统的汉字语义表示方法使用唯一固定的、与语境无关的向量表示,显然不合理。本文利用汉字在词语中的位置区分汉字的语义,采用经典的位置标注方法(B/M/E/S)为汉字设计四种基本语义向量;然后引入注意力机制,根据汉字所在句子的上下文信息对基本向量加权求和以获得最符合当前句子语境的汉字语义表示。评测实验结果表明,该方法可以有效提升汉语分词的性能(+0.3%),并使得依存分析性能提升(+0.59%)。(3)提出基于Encoder-Decoder的汉语依存分析方法。已有的依存分析联合模型在决策时仅考虑当前状态信息,并未利用历史状态信息,也未考虑转移动作之间的依赖关系。本文针对这一问题,提出基于Encoder-Decoder的汉语依存分析方法。在Encoder部分,本文结合基于位置的汉字语义表示学习方法和双向LSTM,准确表示汉字的语义信息和句子的全局信息;在Decoder部分,本文设计一个特征提取器用于获取解码过程中每个时刻的n-gram特征、词性特征和依存子树特征,然后利用LSTM记录历史状态信息和先前所有的解码结果,为每个时刻的决策提供更加丰富的特征。评测实验结果表明,该方法在三项任务上的F1值分别达到97.88%、93.82%和80.47%。与已有的基于神经网络的依存分析联合模型相比,分别提升 0.16%、0.70%和 1.44%。综上所述,本文提出了基于深度学习的三项任务联合处理的汉语依存分析方法。通过在国际公开数据集Penn Chinese TreeBank上搭建模型和开展评测,验证了所提方法中各个部分的有效性,并与已有代表性方法进行对比评测,充分验证了本文方法的有效性。与基于神经网络的依存分析联合模型相比,本文所提方法在三项任务上的精度均有所提升,在依存分析上的精度提升最为显著。
【图文】：

句法树,示例,依存关系,词语

可以形式化的表示为４邋＝邋｛（ｉ，７Ｗ）：邋１邋Ｓ逦Ｓ邋ｎｊ邋ｅ邋Ｌ），其中ｉ代表依存节点在句子中逡逑的位置，７代表头节点在句子中的位置，／代表具体的依存关系类型，Ｌ代表依存关逡逑系类型的集合。图２－１给出了宾州汉语树库ＣＴＢ５中一个依存句法树示例。逡逑ＳＵＢ逦逦0Ｂ逡逑＾Ｐ＾Ｄ＾0Ｄ：：Ｎｎ＾ＳＵ＆＾／＾邋ＪｎＭＯＤｓ＾逡逑中国邋建筑业邋对邋外邋开放邋呈现邋新邋格局逡逑ＮＲ邋ＮＮ逦ＰＮＮＷＷＪＪＮＮ逡逑图２－］依存句法树示例逡逑Ｆｉｇｕｒｅ邋２－１邋Ｅｘａｍｐｌｅ邋ｏｆ邋ｄｅｐｅｎｄｅｎｃｙ邋ｔｒｅｅ逡逑图２－１中的有向边代表着依存关系，箭头所指词语是依存节点，箭尾所指词语逡逑是头节点，有向边上的标签代表词语之间的依存关系类型。除了句子的核心词语逡逑“呈现”之外，其余词语均从属于某一词语。例如，图中的“中国”作为依存节点逡逑支从属于头节点“建筑业”。按照上述形式化表示方法，“中国”与“建筑业”之间逡逑的依存关系可以被表示为（１，２，邋ＮＭＯＤ）。一个待分析的句子可以有多棵符合约逡逑束规则的句法结构树，即存在多个候选集合其中仅有一个集合能够完全正确表逡逑示词语间依存关系。因此依存分析的目标就是从多个候选集合中搜索到一个最优逡逑集合，正确识别出句子中所有词语的依存关系。逡逑２．１．２依存句法分析的评价方法逡逑在评测依存分析模型的精度时

序列,句法分析器,词语,队列

基于转移的分析算法在从左至右遍历句子的过程中，决策出一系列的转移动逡逑作，同时逐步指导着依存句法树的构建［３８，３９］。采用转移算法的依存句法分析器由待逡逑处理队列、分析栈和决策层三部分构成，如图２－２所示。逡逑决策层逡逑分析栈逦免１邋Ｗ４逦ｗ５邋ｗ？邋．．．邋ｗ？逦待处理队列逡逑逦逦邋逦逡逑／邋＼邋－逡逑Ｗ，邋Ｗ３逡逑图２－２基于转移的依存句法分析器逡逑Ｆｉｇｕｒｅ邋２－２邋Ｔｒａｎｓｉｔｉｏｎ－ｂａｓｅｄ邋ｄｅｐｅｎｄｅｎｃｙ邋ｐａｒｓｅｒ逡逑待处理队列存放句子的词语序列，分析栈用于存放分析过程中生成的依存子逡逑树，决策层根据待处理队列和分析栈的特征状态决策当前时刻的最优转移动作。初逡逑始状态下，待处理队列存放句子内所有的词语，分析栈为空或者只包含一个“ＲＯＯＴ”逡逑标记的节点。随着分析的逐步进行，待处理队列里的词语被逐一移入分析h_；分析逡逑栈顶的两个词语被判定是否可以建立依存关系，若可以建立依存关系，，那么作为依逡逑存节点的词语出栈，分析栈保留头节点对应的词语。当待处理队列为空且分析栈只逡逑有一个词语（依存树的根节点）时
【学位授予单位】：北京交通大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP391.1;TP18

【参考文献】