汉语篇章微观话题结构建模与语料库构建
本文关键词: 篇章话题结构 主位-述位理论 主位推进 话题链 语料库构建 出处:《计算机研究与发展》2017年08期 论文类型:期刊论文
【摘要】:篇章话题结构分析是自然语言理解的前沿基础,而大规模高质量的适用于汉语篇章分析的语料资源缺乏,严重制约了相关篇章话题计算模型的研究.针对上述问题,首先研究了汉语篇章话题结构的理论表示体系.分析了主述位理论、英语修辞结构理论和宾州篇章树库体系的优势,结合汉语复句句群理论以及汉语自身特点,提出了一种基于主述位理论的汉语篇章微观话题结构表示方式,并借助微观话题链构建了汉语篇章话题结构表示体系.随后,在此基础上,采用自顶向下、后向搜索的标注策略和人机结合的语料库标注方式,构建了基于篇章微观话题表示体系的汉语篇章话题结构语料库(Chinese discourse topic corpus,CDTC).CDTC共包含500个文档,对其进行了详细统计分析并展示了语料库的标注情况.与宾州篇章树库体系、广义话题结构理论的对比表明,所提篇章微观话题结构表示体系在理论上具有一定的优越性,并且符合汉语特点;一致性检验表明CDTC能够充分体现汉语篇章话题分析问题本身的难度,并能够为相关研究提供语料资源支持.
[Abstract]:Discourse topic structure analysis is the front line of natural language understanding. However, the lack of large scale and high quality corpus resources for Chinese text analysis seriously restricts the research of relevant discourse topic computing models. Firstly, this paper studies the theoretical representation system of Chinese discourse topic structure, analyzes the advantages of subject and rheme theory, English rhetoric structure theory and Pennsylvania text tree library system, and combines the theory of sentence group of Chinese complex sentences and the characteristics of Chinese itself. In this paper, we propose a topic structure representation method of Chinese text based on thematic and rheme theory, and construct a Chinese discourse topic structure representation system with the help of micro topic chain. Then, on this basis, we adopt the top-down approach. The tagging strategy of backward search and the corpora tagging method of human-computer combination are used to construct a corpus of Chinese discourse topic Corpus CDTCf.CDTC containing 500 documents, which is based on the text micro-topic representation system. Compared with the Pennsylvania text tree system and the generalized topic structure theory, the proposed text micro-topic structure representation system has some advantages in theory. The consistency test shows that CDTC can fully reflect the difficulty of the topic analysis of Chinese text, and can provide corpus-based support for related research.
【作者单位】: 苏州大学计算机科学与技术学院;苏州科技大学计算机科学与工程系;苏州市虚拟现实智能交互及应用技术重点实验室;
【基金】:国家自然科学基金项目(61331011,61673290,61472264)~~
【分类号】:TP391.1
【参考文献】
相关期刊论文 前8条
1 宋洋;王厚峰;;基于马尔可夫逻辑的中文零指代消解[J];计算机研究与发展;2015年09期
2 尚英;宋柔;卢达威;;广义话题结构理论视角下话题自足句成句性研究[J];中文信息学报;2014年06期
3 周强;周骁聪;;基于话题链的汉语语篇连贯性描述体系[J];中文信息学报;2014年05期
4 张牧宇;宋原;秦兵;刘挺;;中文篇章级句间语义关系识别[J];中文信息学报;2013年06期
5 宋柔;;汉语篇章广义话题结构的流水模型[J];中国语文;2013年06期
6 蒋玉茹;宋柔;;基于广义话题理论的话题句识别[J];中文信息学报;2012年05期
7 张牧宇;黎耀炳;秦兵;刘挺;;基于中心语匹配的共指消解[J];中文信息学报;2011年03期
8 乐明;;汉语篇章修辞结构的标注研究[J];中文信息学报;2008年04期
相关博士学位论文 前1条
1 李艳翠;汉语篇章结构表示体系及资源构建研究[D];苏州大学;2015年
【共引文献】
相关期刊论文 前10条
1 奚雪峰;褚晓敏;孙庆英;周国栋;;汉语篇章微观话题结构建模与语料库构建[J];计算机研究与发展;2017年08期
2 冯文贺;李艳翠;任函;周国栋;;汉英篇章结构平行语料库的对齐标注评估[J];中文信息学报;2017年03期
3 乐耀;;互动语言学研究的重要课题——会话交际的基本单位[J];当代语言学;2017年02期
4 宋柔;葛诗利;尚英;卢达威;;面向文本信息处理的汉语句子和小句[J];中文信息学报;2017年02期
5 唐文武;过弋;徐永斌;方旭;;基于条件随机场的评价对象缺省项识别[J];中文信息学报;2016年06期
6 马文津;施春宏;;基于整句—零句表达系统的汉语中介语篇章现象考察——以日语母语者汉语语篇为例[J];世界汉语教学;2016年04期
7 褚晓敏;朱巧明;周国栋;;自然语言处理中的篇章主次关系研究[J];计算机学报;2017年04期
8 谷晶晶;周国栋;;汉语冒号标注与自动识别方法研究[J];中文信息学报;2016年03期
9 李元瑞;;现代汉语零形主语小句研究综述[J];现代语文(语言研究版);2016年02期
10 穆从军;;修辞结构理论视角下英汉学术论文摘要的修辞关系对比研究[J];现代外语;2016年01期
【二级参考文献】
相关期刊论文 前10条
1 张牧宇;秦兵;刘挺;;中文篇章级句间语义关系体系及标注[J];中文信息学报;2014年02期
2 尚英;宋柔;;基于广义话题结构语料库的语体对比研究——以报告体与小说体为例[J];计算机工程与应用;2014年11期
3 宋柔;;汉语篇章广义话题结构的流水模型[J];中国语文;2013年06期
4 孙坤;;话题链视角下的汉英篇章组织模式对比研究[J];解放军外国语学院学报;2013年03期
5 蒋玉茹;宋柔;;基于广义话题理论的话题句识别[J];中文信息学报;2012年05期
6 沈家煊;;“零句”和“流水句”——为赵元任先生诞辰120周年而作[J];中国语文;2012年05期
7 黄娴;张克亮;;汉语零形回指研究综述[J];中文信息学报;2009年04期
8 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[J];中文信息学报;2009年03期
9 乐明;;汉语篇章修辞结构的标注研究[J];中文信息学报;2008年04期
10 方梅;;由背景化触发的两种句法结构——主语零形反指和描写性关系从句[J];中国语文;2008年04期
相关博士学位论文 前4条
1 徐凡;英文篇章结构分析关键问题研究[D];苏州大学;2013年
2 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
3 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
4 姚双云;复句关系标记的搭配研究与相关解释[D];华中师范大学;2006年
【相似文献】
相关期刊论文 前5条
1 崔耀,,陈永明;一个实验性的汉语篇章理解系统[J];中文信息学报;1994年03期
2 徐凡;朱巧明;周国栋;王明文;;衔接性驱动的篇章一致性建模研究[J];中文信息学报;2014年03期
3 王建波,唐正伟,杜春玲,王开铸;篇章物理结构与意义结构的一种形式化表达方法[J];情报学报;1996年04期
4 周小佩;洪宇;车婷婷;姚建民;朱巧明;;基于平行论元的隐式篇章关系推理研究[J];计算机应用与软件;2012年09期
5 ;[J];;年期
相关博士学位论文 前1条
1 张水云;语篇理解中核心概念的建构与整合及教学应用研究[D];西北师范大学;2009年
相关硕士学位论文 前10条
1 杨雪蓉;面向事件关系检测的特征分析与场景推理方法研究[D];苏州大学;2015年
2 严为绒;基于框架语义的隐式篇章关系推理方法研究[D];苏州大学;2015年
3 陈梦婷;编码与提取对二语篇章理解的影响研究[D];江南大学;2016年
4 逯红梅;篇章理解的认知研究[D];吉林大学;2007年
5 杨宁;中德报刊评论的篇章理解对比研究[D];大连外国语学院;2012年
6 张美荣;英语篇章理解的认知研究[D];长春理工大学;2009年
7 康秀丽;中国德语教学中的篇章理解[D];上海外国语大学;2010年
8 张知博;认知框架下的篇章连贯[D];黑龙江大学;2006年
9 朱鑫;输入模态、频次对二语篇章理解的影响[D];江南大学;2013年
10 车婷婷;基于论元概念与焦点的隐式篇章关系检测方法研究[D];苏州大学;2014年
本文编号:1516401
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1516401.html