汉语篇章结构表示体系及资源构建研究

发布时间:2017-06-12 21:01

  本文关键词:汉语篇章结构表示体系及资源构建研究,,由笔耕文化传播整理发布。


【摘要】:篇章指由一系列连续的子句、句子或语段构成的语言整体单位,每个篇章不仅具有内部连贯性,而且篇章中的各级语言单位是描述同一问题或同一种情境的相对完整的语言整体。在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关系,篇章结构分析旨在分析出这种结构关系。篇章结构分析结果对于提高自动文摘、知识抽取、自动问答等相关系统的性能均有重要作用。随着词法、句法分析技术的成熟,篇章结构分析成为制约自然语言处理的关键基础问题。目前篇章结构分析研究主要面向英语,面向汉语的研究相对落后。主要表现在:1)适用于汉语的篇章结构分析理论还不完善;2)符合汉语特点的大规模汉语篇章结构语料资源匮乏;3)由于汉英语言上的差异性,适用于英语的篇章结构分析方法不能直接应用在汉语篇章结构分析研究中。本文重点研究了汉语篇章结构的理论表示体系。借鉴英语修辞结构理论和宾州篇章树库体系的优点,参考汉语复句和句群的研究成果,结合汉语本身特点,本文提出一种基于连接依存树的汉语篇章结构表示体系,并根据汉语特点定义了其中的关键元素:子句(基本篇章单位)、连接词、篇章结构关系、篇章单位主次。连接依存树的主要特征是叶子节点为子句,内部节点为连接词,连接词通过其层级地位(管辖范围)表示篇章结构层次,通过其语义(具体与抽象)表示篇章关系,连接词所连接的篇章单位根据篇章整体意图区分主次。与修辞结构理论、宾州篇章树库体系的理论对比表明,本文所提基于连接依存树的汉语篇章结构表示体系在理论上具有一定的优越性,并且符合汉语特点。基于连接依存树的汉语篇章结构表示体系是进一步开展篇章结构语料库构建的理论基础。在此基础上,进行了汉语篇章结构语料库的构建研究。基于连接依存树表示体系,本文采用自顶向下的标注策略和人机结合的语料库标注方式,构建了汉语篇章结构语料库(Chinese Discourse Treebank,CDTB)。CDTB目前包含来自Chinese Treebank的500个文档,本文对其进行分析并展示了语料库的标注情况。标注一致性测试表明CDTB标注质量较好,统计数据表明所标CDTB达到一定规模。CDTB可以为汉语篇章结构分析研究提供资源支持。最后,本文实现了基于连接依存树的汉语篇章结构分析平台。该平台包括子句识别、篇章结构树构建、篇章关系识别、篇章单位主次识别任务,实验结果验证了本文所提基于连接依存树的汉语篇章结构表示体系的合理性,以及所标CDTB语料库的可用性。目前,汉语篇章结构分析研究尚处于起步阶段,本文研究亦属探索性工作,上述工作在理论研究、资源建设、计算分析上对汉语篇章结构分析研究均有不同程度的创新,对该领域的相关研究具有重要参考价值。
【关键词】:篇章结构分析 连接依存树 语料库 子句 篇章关系
【学位授予单位】:苏州大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 中文摘要4-6
  • Abstract6-12
  • 第1章 绪论12-35
  • 1.1 研究背景和意义12-14
  • 1.2 国内外研究现状14-33
  • 1.2.1 英语篇章结构分析的理论研究15-20
  • 1.2.1.1 浅层的衔接关系15
  • 1.2.1.2 Hobbs模型15-16
  • 1.2.1.3 修辞结构理论16-18
  • 1.2.1.4 宾州篇章树库体系18-20
  • 1.2.1.5 其它相关理论20
  • 1.2.2 英语篇章结构分析的资源建设20-24
  • 1.2.2.1 修辞结构理论篇章树库20-22
  • 1.2.2.2 宾州篇章树库22-24
  • 1.2.3 英语篇章结构分析的计算模型24-29
  • 1.2.3.1 基于RSTDT的研究25-27
  • 1.2.3.2 基于PDTB的研究27-29
  • 1.2.3.3 结合RSTDT和PDTB的研究29
  • 1.2.4 汉语篇章结构分析研究现状及存在问题29-33
  • 1.2.4.1 汉语篇章结构分析研究现状29-32
  • 1.2.4.2 存在问题32-33
  • 1.3 本文的研究内容33-34
  • 1.4 本文的组织结构34-35
  • 第2章 基于连接依存树的汉语篇章结构表示体系35-76
  • 2.1 引言35-38
  • 2.1.1 已有篇章结构理论体系分析35-36
  • 2.1.2 汉语篇章结构的特点36-37
  • 2.1.3 连接依存树37-38
  • 2.2 叶子节点——子句38-48
  • 2.2.1 子句的定义38-40
  • 2.2.2 子句的判定40-48
  • 2.2.2.1 子句是单句40
  • 2.2.2.2 子句是复句中的分句40-41
  • 2.2.2.3 标点与子句判定41-47
  • 2.2.2.4 一些特别情况47-48
  • 2.3 内部节点——连接词48-58
  • 2.3.1 连接词的特点49-52
  • 2.3.1.1 连接词的形式49-50
  • 2.3.1.2 连接词的分布50-51
  • 2.3.1.3 连接词的词性51
  • 2.3.1.4 连接词的句法特性51
  • 2.3.1.5 连接词的逻辑语义关系51-52
  • 2.3.1.6 其它连接词52
  • 2.3.2 隐式连接词的添加52-57
  • 2.3.2.1 添加连接词的依据53-55
  • 2.3.2.2 连接词添加的位置55
  • 2.3.2.3 其它情况55-57
  • 2.3.3 显式连接词的删除57-58
  • 2.4 篇章结构关系58-67
  • 2.4.1 篇章结构层次化及判定58-60
  • 2.4.2 篇章关系类别及判定60-67
  • 2.4.2.1 篇章关系类别61-65
  • 2.4.2.2 篇章关系的判定65-67
  • 2.5 篇章单位主次67-74
  • 2.5.1 篇章单位主次区分67-68
  • 2.5.2 篇章单位主次判定68-74
  • 2.5.2.1 主次判定的依据69-71
  • 2.5.2.2 主次判定的方法71-73
  • 2.5.2.3 主次判定的难点73-74
  • 2.6 与相关理论的比较74-75
  • 2.7 本章小结75-76
  • 第3章 基于连接依存树表示体系的CDTB语料库构建76-92
  • 3.1 引言76
  • 3.2 自顶向下的CDTB标注策略76-77
  • 3.3 人机结合的CDTB标注方法77-81
  • 3.3.1 标注流程设计78
  • 3.3.2 语料标注78-80
  • 3.3.3 语料格式80-81
  • 3.3.4 语料校对81
  • 3.4 CDTB标注一致性测试81-83
  • 3.5 CDTB标注信息统计与分析83-91
  • 3.5.1 连接词统计与分析84-85
  • 3.5.2 篇章关系统计与分析85-87
  • 3.5.3 篇章结构统计与分析87-89
  • 3.5.4 篇章单位主次统计与分析89-91
  • 3.6 本章小结91-92
  • 第4章 基于CDTB的汉语篇章结构分析92-115
  • 4.1 引言92-94
  • 4.2 汉语篇章结构分析框架94-96
  • 4.3 实验方法96-103
  • 4.3.1 所用特征96-101
  • 4.3.1.1 子句识别97-98
  • 4.3.1.2 连接词识别与分类98-99
  • 4.3.1.3 篇章关系及主次识别99-101
  • 4.3.1.4 篇章结构识别101
  • 4.3.2 实验设置101-103
  • 4.4 实验结果及分析103-114
  • 4.4.1 基于标点的子句识别103-106
  • 4.4.2 连接词识别与分类106-108
  • 4.4.2.1 连接词识别106-107
  • 4.4.2.2 连接词分类107-108
  • 4.4.3 隐式篇章关系识别108-110
  • 4.4.4 篇章单位主次识别110
  • 4.4.5 基于连接依存树的汉语篇章结构分析平台性能110-114
  • 4.4.5.1 结构和关系识别结果与分析111-112
  • 4.4.5.2 篇章结构树构建结果与分析112-114
  • 4.5 本章小结114-115
  • 第5章 总结与展望115-117
  • 5.1 总结115-116
  • 5.2 展望116-117
  • 参考文献117-125
  • 作者在攻读博士学位期间完成的论文及科研工作125-127
  • 附录127-137
  • 致谢137-138

【相似文献】

中国期刊全文数据库 前7条

1 胡航丽;莫倩;;利用篇章结构改进股评观点分类的研究[J];小型微型计算机系统;2009年05期

2 陆应铸;在“三看”中选准报道切入点[J];传媒观察;2003年09期

3 杨凌云;分析篇章结构——提高学生阅读能力的有效途径[J];成都电讯工程学院学报;1988年S2期

4 陆应铸;;在“三看”中选准报道切入点[J];记者摇篮;2003年12期

5 杨江;侯敏;王宁;;基于浅层篇章结构的评论文倾向性分析[J];中文信息学报;2011年02期

6 黎炯宗;;通讯文章的节奏与韵味[J];新闻知识;2012年03期

7 ;[J];;年期

中国重要会议论文全文数据库 前4条

1 马艳云;;浅谈多媒体在小学语文教学中的作用[A];2014年6月现代教育教学探索学术交流会论文集[C];2014年

2 单永明;;汉语文本的篇章结构及其标引算法的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

3 陈佳君;;从辞章章法谈作文运材教学——以几种常用于论说文的章法为例[A];文学语言理论与实践丛书——辞章学论文集(上)[C];2002年

4 丁卫宏;;浅谈语文对比艺术教学[A];中华教育理论与实践科研论文成果选编(第1卷)[C];2009年

中国重要报纸全文数据库 前4条

1 民勤县苏武乡邓岔小学 许凤梅;浅议农村小学生阅读兴趣的培养[N];武威日报;2008年

2 海门市三星中心小学 刘培;语文教学中如何引导学生质疑[N];成才导报.教育周刊;2007年

3 陈文;科学性与实用性的统一[N];中华读书报;2001年

4 清华大学外语系 许建平;标题匹配题:注重整体篇章结构[N];中国教育报;2005年

中国博士学位论文全文数据库 前1条

1 李艳翠;汉语篇章结构表示体系及资源构建研究[D];苏州大学;2015年

中国硕士学位论文全文数据库 前6条

1 阮茜;事故报道的篇章结构[D];西安外国语大学;2015年

2 刘兆林;英汉经济类语篇篇章结构模式之比较研究[D];西南交通大学;2003年

3 石静;篇章结构与接受心理[D];华东师范大学;2003年

4 刘春芳;《世说新语》篇章结构语用分析研究[D];山西大学;2003年

5 廉爱宁;基于修辞结构理论的留学生汉语议论文篇章结构研究[D];东北师范大学;2011年

6 杜平;中德新年贺词之篇章结构分析[D];西安外国语大学;2013年


  本文关键词:汉语篇章结构表示体系及资源构建研究,由笔耕文化传播整理发布。



本文编号:444887

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/444887.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户644f1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com