基于递归神经网络的篇章连贯性建模研究
发布时间:2021-03-03 06:14
衔接性和连贯性是句子构成篇章的两个最基本特性。一般而言,衔接性是连句成章的词汇和语法方面的手段,而连贯是采用这些手段所产生的结果。衔接性指语篇中表层结构上的粘着性,是语篇的有形网络;而连贯性指语篇中底层语义上的关联性,是语篇的无形网络。根据功能语言学家Halliday所述,一个连贯的语篇由语义上相关的相似成份连接起来。如果篇章缺乏这种相似成份,必将出现语篇衔接上的缺口,从而导致不连贯现象。篇章连贯性建模旨在对篇章中句子间的连贯性程度建立可计算模型,是自然语言处理的一个基础研究问题,其可以被广泛地应用在许多与自然语言处理相关的应用中,例如:情感分析、统计机器翻译、篇章生成和文本摘要等。早期的篇章连贯性模型主要采用特征工程方法,从文本中提取出表示语义的各种特征,例如:篇章中的实体信息,句法路径信息等,然后进行特征选择,并训练分类器;随着深度学习在语音和图像领域取得巨大成功后,有些学者开始利用神经网络方法构建英文篇章的连贯性模型。但是,目前基于深度学习的篇章连贯性模型没有和早期的基于实体信息的模型进行有效融合,以突显篇章中实体在充当篇章衔接性的重要作用;同时,现有模型主要基于英文篇章,对中文...
【文章来源】:江西师范大学江西省
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
标注好语法角色的语篇
图 2-2 实体网格模型由图中可以看出,实体网格是以句子作为其研究的基本单位,该模型用论的启发用中心实体的语法角色来表示句子。借助了四个语法角色符号”,“X”,“-”来刻画篇章中的实体主语,宾语,非主语和宾语,不体。并且规定了实体语法角色的优先级:-<X<O<S。当一个句子中存在上相同的实体时,只标识优先级最高的实体。实体网格的研究工作是围绕着中心实体在相邻行的语法角色转换开展相邻行间的语法角色转换[O,-]出现了 7 次,相邻行间语法角色转换总,则该转换在实体网格中的分布概率为 0.09,实体网格用相邻句子间义角色转换的频率来隐式的模拟篇章连贯性。然后通过比较不同句子排篇章连贯性得分的大小对句子进行排序,将学习篇章的连贯性转为句子,取得了不错的成果。2.2.2 基于神经网络的模型
2014 年李纪为等人提出了分布式句子向量表示的神经网络模型,该模型用了两种 RNN 生成句子的分布式表示。如图 2-3 和 2-4 所示。从图2-3中可以看出Recurrent Neural Network是按照输入顺序为句子生成分布式向量表示,对于句子 s,循环神经网络循环利用子节点对应的词和词向量来预测父节点的词向量,最后得到节点的向量表示就是句子的向量表示,计算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 维矩阵,bRecurrent是 k 维偏置矩阵,f 是激活函数。用递归神经网络(Recursive Neural Network)得到的句子向量表示是依赖于句法树结构的,每个父节点的向量都是通过其直接子结点计算得到的,类似地,用递归得到的根节点向量表示句子,对于给定的父节点 p 和其两个子节点 c1、c2
【参考文献】:
期刊论文
[1]语篇连贯性研究综述[J]. 殷习芳,刘明东. 湖南第一师范学报. 2006(03)
[2]篇章连贯性的定量分析[J]. 周光亚. 现代外语. 1986(04)
硕士论文
[1]中文自动分词系统的研究与实现[D]. 周程远.华东师范大学 2010
本文编号:3060772
【文章来源】:江西师范大学江西省
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
标注好语法角色的语篇
图 2-2 实体网格模型由图中可以看出,实体网格是以句子作为其研究的基本单位,该模型用论的启发用中心实体的语法角色来表示句子。借助了四个语法角色符号”,“X”,“-”来刻画篇章中的实体主语,宾语,非主语和宾语,不体。并且规定了实体语法角色的优先级:-<X<O<S。当一个句子中存在上相同的实体时,只标识优先级最高的实体。实体网格的研究工作是围绕着中心实体在相邻行的语法角色转换开展相邻行间的语法角色转换[O,-]出现了 7 次,相邻行间语法角色转换总,则该转换在实体网格中的分布概率为 0.09,实体网格用相邻句子间义角色转换的频率来隐式的模拟篇章连贯性。然后通过比较不同句子排篇章连贯性得分的大小对句子进行排序,将学习篇章的连贯性转为句子,取得了不错的成果。2.2.2 基于神经网络的模型
2014 年李纪为等人提出了分布式句子向量表示的神经网络模型,该模型用了两种 RNN 生成句子的分布式表示。如图 2-3 和 2-4 所示。从图2-3中可以看出Recurrent Neural Network是按照输入顺序为句子生成分布式向量表示,对于句子 s,循环神经网络循环利用子节点对应的词和词向量来预测父节点的词向量,最后得到节点的向量表示就是句子的向量表示,计算公式如公式(2-1)所示: 1tt Recurrent t Recurrent w Recurrenth f V h W e b (2-1)其中 WRecurrent和 VRecurrent是 K*K 维矩阵,bRecurrent是 k 维偏置矩阵,f 是激活函数。用递归神经网络(Recursive Neural Network)得到的句子向量表示是依赖于句法树结构的,每个父节点的向量都是通过其直接子结点计算得到的,类似地,用递归得到的根节点向量表示句子,对于给定的父节点 p 和其两个子节点 c1、c2
【参考文献】:
期刊论文
[1]语篇连贯性研究综述[J]. 殷习芳,刘明东. 湖南第一师范学报. 2006(03)
[2]篇章连贯性的定量分析[J]. 周光亚. 现代外语. 1986(04)
硕士论文
[1]中文自动分词系统的研究与实现[D]. 周程远.华东师范大学 2010
本文编号:3060772
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3060772.html