基于CDTB的篇章结构解析器的自动构建研究

发布时间:2021-06-29 05:07
  词、短语和句子级的相关研究日趋成熟,篇章成为了自然语言处理领域的研究焦点之一。篇章分析旨在研究篇章特点和篇章组成单元之间的语义关系,进而从整体上理解篇章。篇章结构解析作为篇章分析的核心任务,其研究目标是依据篇章理论将篇章文本组织成结构化数据,为下游篇章级应用提供支撑。基于中文篇章连接依存树(Chinese Connective-driven Discourse Tree,CDT)理论和对应资源库CDTB,本文针对中文篇章结构自动解析问题进行了研究,具体工作包括:(1)提出了一种基于长短期记忆神经网络和图卷积神经网络组合的中文基本篇章单元(Elementary Discourse Unit,EDU)识别方法。该方法将EDU识别看作一个序列化标记任务,通过对上下文及EDU内部各成分间依存结构信息的表征来实现EDU分割点的确认,在CDTB语料上的实验验证了方法的有效性。(2)提出了一个基于神经网络和转移系统的中文篇章结构自底向上的自动解析方法。该方法将篇章树的构建过程看成状态转移过程,通过预测下一时刻的状态转移来完成篇章解析树的自动构建。在CDTB语料上的实验验证了方法的有效性。本文基于这一... 

【文章来源】:苏州大学江苏省

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于CDTB的篇章结构解析器的自动构建研究


图2-2?CDT篇章关系类别和层次??2.2?CDTB语料库介绍和统计??CDTB全称连接依存树库篇章结构语料,其在CTB?6.0_基础上标注有500篇??

分布情况,篇章,树高


第二章相关知识?基于CDTB的篇章结构解析器的自动构建研究??有2336个有效的CDT,包含5425个句子,10632个EDU,平均每个CDT包含2.3??个句子、4.5个EDU,每个句子平均可以分割为1.95个EDU。篇章树的平均高度为??3.42,最低高度为2,最高为10。图2-3给出了篇章树的高度分布。可以看出,大部??分的篇章树高度集中在2到4之间,也意味着大部分的CDT都只有一层到三层内??部关系节点。图2-4给出了?CDTB中包含不同EDU个树的CDT数量的分布情况。??与图2-3反应的统计特征一致,大部分CDT只包含2到6个EDU,最多包含28个??EDU。??700?-?_??600??圓漏??ill????1|1|??〇1?_____?_I ̄, ̄ ̄??23456789?10?11??篇章树高度??图2-3?CDTB篇章树高度分布??CDTB共包含7321个关系节点,每个关系节点都标注有驱动的连接词、核心位??置和篇章关系。CDT中核心位置分为三类,中心在左、中心在右和所有孩子节点??都是中心,为方便描述,下文中使用?NS?(Nucleus-Satellite)、SN?(Satellite-Nucleus)??和NN?(Nucleus-Nucleus)分别代表三种中心位置。统计所有关系节点的核心位置??得,NN,?NS?和?SN分别占比?51.3%、28.8%?和?38.9%。??所有篇章关系中,显式篇章关系1814个,占比24.8%;隐式篇章关系5507个,??占比75.2%。从句子层面考虑,可以将CDTB的篇章关系分为句内关系和句间关系,??统计得CDTB语料中句内关系510

数量分布,篇章,数量分布,数据预处理


基于CDTB的篇章结构解析器的自动构建研究?第二章相关知识??其中显式关系占比16.4%。??由上述CDTB总体统计结果可知,以段落为单位标注的CDTB中篇章树高度普??遍较低,多数只有2到3层关系,大多包含2到6个EDU。篇章树内部节点的核心??位置中,NN核心位置超过一半以上。篇章关系类别中,超过7成是隐式关系,句间??关系中隐式关系占比更高。??600?-I???500?-??400?-??!??V?300?■??树??个??数?200?-?^??2?3?4?5?6?7?8?9?10?12?14?16?18?20?22?24?26?28??EDU个数??图2-4?CDTB篇章树EDU数量分布??2.3数据预处理与数据集划分??在基于CDTB完成中文篇章解析器的自动构建之前,我们需要先对CDTB语料??进行预处理。CDTB在CTB?6.0的句法之上构建篇章结构。通过将CTB?6.0中对应??句子编号的句法信息映射到CDTB对应的句子上,就可以得到CDTB中每个句子和??EDU的中文分词、词性信息和每个句子的成分句法信息。2.1节提到过CDT中标注??NN核心位置的关系节点孩子节点可以有多个,这会给篇章结构的自动解析造成不??便。根据句法分析中的惯用方法,预处理阶段首先通过对这种多元关系不断合并最??右端的两个孩子节点,将新产生的关系节点标注与其父节点同样的核心位置和篇章??关系,从而将多元关系节点二元化。转化方法如图2-5所示。转换之后的CDTB语??料内部节点数量增多到8296个,NN核心位置占比进一步上升,与NN经常一起出??11??

【参考文献】:
期刊论文
[1]汉语篇章连接词识别与分类[J]. 李艳翠,孙静,周国栋.  北京大学学报(自然科学版). 2015(02)
[2]汉语隐式篇章关系识别[J]. 孙静,李艳翠,周国栋,冯文贺.  北京大学学报(自然科学版). 2014(01)
[3]汉语复句关系词库的建设及其利用[J]. 胡金柱,吴锋文,李琼,舒江波.  语言科学. 2010(02)
[4]面向中文信息处理的复句关系词提取算法研究[J]. 胡金柱,舒江波,姚双云,周星,吴锋文,肖升.  计算机工程与科学. 2009(10)
[5]修辞结构理论与句群研究[J]. 陈莉萍.  苏州大学学报(哲学社会科学版). 2008(04)



本文编号:3255794

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3255794.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ec56***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com