汉语宏观篇章资源建设与结构分析方法研究
发布时间:2021-01-30 18:22
在自然语言处理领域,随着研究对象逐渐从字词和句子转移到句群、段落和章节等更大的语义层面,篇章分析变得越来越重要。篇章分析是理解文本整体语义的基础,广泛应用于情感分析、问答系统、自动摘要等更深层次的自然语言处理应用。相较于微观篇章分析研究取得的成功,宏观篇章分析面临诸多挑战。宏观篇章分析包括篇章结构分析、篇章主次识别和篇章关系识别三个子任务。基于汉语宏观篇章结构表示体系,本文对汉语宏观篇章资源建设与结构分析方法展开深入研究,主要研究内容包括以下三个方面:(1)针对汉语宏观篇章语料匮乏的问题,本文构建汉语宏观篇章语料库(MCDTB)。首先,基于汉语宏观篇章结构表示体系,标注宏观篇章结构树,并额外标注段落主题句和篇章摘要等更高层次的宏观篇章信息;其次,在详细的标注流程和标注准则确定后,开发标注工具并提出质量保证策略,以保证标注速度和标注质量;最后,共标注720篇汉语新闻语料,并取得一致率大于80%和Kappa值大于0.6的标注一致性。在MCDTB上的篇章主次识别实验验证了该语料库的可用性。(2)针对高层次篇章结构识别由于样本过少而产生过拟合的问题,本文提出基于标签退化组合模型的宏观篇章结构识...
【文章来源】:苏州大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图1-1?chtb_0056的宏观篇章结构树??
章构建一棵完整??的篇章结构树,没有显式区分微观层次和宏观层次。??\f\?2-\i?(a)?In?addition,?(b)?Mrs.?Lidenvoodsaid,?(c)?Norfolk?is?hkely?to?draw?down?its??cash?initially?(d)?to?finance?the?purchases?(e)?and?this?forfeit?some?interest?income.??例2-1为RST-DT中wsj_l111的一个句子,其篇章结构树标注如图2-1所示,标??注内容主要包括篇章的结构、主次(核性)和关系三个方面。篇章基本单元为a,?b,c,??d和e,箭头指向的节点(如a,?c,a-d)为篇章关系中较为重要的部分,即核心(Nucelus)。??两个篇章单兀使用篇章关系(如attribution-embedded,?same-unit)连接,从而合并为更??大的篇章单元,RST-DT的篇章关系分为18大类78小类。??a-e??consequence-s??a-d?e??same-unit??a-b?c-d??attribution-embedded?purpose??a?b?|?c?—?d??图2-1?RST-DT?wsjj?111的篇章结构子树??10??
料库语料来源于CTB6.0,共标注500篇新??闻类文章,其中有效标注2342个篇章(段落),篇章基本单元(EDU)为子句或句子。??你\1-11?(a)亚洲国家和地区是中国主要外资来源,(b)来自香港、台湾、日本、??韩国、东盟等国家和地区,投资额占全国利用外资总额的百分之八十五以上。(c)其??中香港仍是内地吸收外资的主要来源,(d)占累计实际吸收外商投资的比重为百分之??五十五以上。??在CDTB中,文章chtb_0076的部分片段如例2-2所示,其标注的篇章结构树如??图2-2所示,相较于RST-DT和PDTB,?CDTB既标注篇章的结构、主次和关系(如??RST-DT),也标注篇章关系中所包含的连接词(共标注278个连接词)和显式、隐式??关系(共标注7310个关系,其中显式1814个,隐式54%个)等。与RST-DT不同,??CDTB以-个段落构建?棵篇章结构树,没有构建段落及以上的篇章结构。??a-d?('今分){其中,符合语感,+吋删除!??〈符合语感,f可添加>?〈符合语感,f可删除〉???a???b??I?c?I??d???图2-2?CDTB的基于链接依存树的篇章结构树(chtb_0076)??2.2汉语宏观篇章分析相关任务介绍??篇章分析分为两个层次:微观层面和宏观层面。在微观层面,篇章基本单元(EDU)??为子句或句子,而在宏观层面,篇章基本单元(EDU)为自然段落。篇章分析目的是??分析出篇章的层次结构及语义关系,具体的,是判断篇章单元间是否存在关系、判断??篇章单元的重要性以及对篇章单元间存在的关系分类。??篇章分析主要分为3个子任务:篇章结构分析、
【参考文献】:
期刊论文
[1]基于转移的中文篇章结构解析研究[J]. 孙成,孔芳. 中文信息学报. 2018(12)
[2]自然语言处理中的篇章主次关系研究[J]. 褚晓敏,朱巧明,周国栋. 计算机学报. 2017(04)
[3]基于框架的汉语篇章结构生成和篇章关系识别[J]. 吕国英,苏娜,李茹,王智强,柴清华. 中文信息学报. 2015(06)
[4]汉语篇章修辞结构的标注研究[J]. 乐明. 中文信息学报. 2008(04)
[5]汉英语篇主题与段落结构模式的比较研究[J]. 李锦,廖开洪. 暨南学报(哲学社会科学版). 2001(05)
博士论文
[1]汉语篇章结构表示体系及资源构建研究[D]. 李艳翠.苏州大学 2015
硕士论文
[1]面向问答系统的复述识别技术研究与实现[D]. 徐帅.哈尔滨工业大学 2009
本文编号:3009369
【文章来源】:苏州大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
图1-1?chtb_0056的宏观篇章结构树??
章构建一棵完整??的篇章结构树,没有显式区分微观层次和宏观层次。??\f\?2-\i?(a)?In?addition,?(b)?Mrs.?Lidenvoodsaid,?(c)?Norfolk?is?hkely?to?draw?down?its??cash?initially?(d)?to?finance?the?purchases?(e)?and?this?forfeit?some?interest?income.??例2-1为RST-DT中wsj_l111的一个句子,其篇章结构树标注如图2-1所示,标??注内容主要包括篇章的结构、主次(核性)和关系三个方面。篇章基本单元为a,?b,c,??d和e,箭头指向的节点(如a,?c,a-d)为篇章关系中较为重要的部分,即核心(Nucelus)。??两个篇章单兀使用篇章关系(如attribution-embedded,?same-unit)连接,从而合并为更??大的篇章单元,RST-DT的篇章关系分为18大类78小类。??a-e??consequence-s??a-d?e??same-unit??a-b?c-d??attribution-embedded?purpose??a?b?|?c?—?d??图2-1?RST-DT?wsjj?111的篇章结构子树??10??
料库语料来源于CTB6.0,共标注500篇新??闻类文章,其中有效标注2342个篇章(段落),篇章基本单元(EDU)为子句或句子。??你\1-11?(a)亚洲国家和地区是中国主要外资来源,(b)来自香港、台湾、日本、??韩国、东盟等国家和地区,投资额占全国利用外资总额的百分之八十五以上。(c)其??中香港仍是内地吸收外资的主要来源,(d)占累计实际吸收外商投资的比重为百分之??五十五以上。??在CDTB中,文章chtb_0076的部分片段如例2-2所示,其标注的篇章结构树如??图2-2所示,相较于RST-DT和PDTB,?CDTB既标注篇章的结构、主次和关系(如??RST-DT),也标注篇章关系中所包含的连接词(共标注278个连接词)和显式、隐式??关系(共标注7310个关系,其中显式1814个,隐式54%个)等。与RST-DT不同,??CDTB以-个段落构建?棵篇章结构树,没有构建段落及以上的篇章结构。??a-d?('今分){其中,符合语感,+吋删除!??〈符合语感,f可添加>?〈符合语感,f可删除〉???a???b??I?c?I??d???图2-2?CDTB的基于链接依存树的篇章结构树(chtb_0076)??2.2汉语宏观篇章分析相关任务介绍??篇章分析分为两个层次:微观层面和宏观层面。在微观层面,篇章基本单元(EDU)??为子句或句子,而在宏观层面,篇章基本单元(EDU)为自然段落。篇章分析目的是??分析出篇章的层次结构及语义关系,具体的,是判断篇章单元间是否存在关系、判断??篇章单元的重要性以及对篇章单元间存在的关系分类。??篇章分析主要分为3个子任务:篇章结构分析、
【参考文献】:
期刊论文
[1]基于转移的中文篇章结构解析研究[J]. 孙成,孔芳. 中文信息学报. 2018(12)
[2]自然语言处理中的篇章主次关系研究[J]. 褚晓敏,朱巧明,周国栋. 计算机学报. 2017(04)
[3]基于框架的汉语篇章结构生成和篇章关系识别[J]. 吕国英,苏娜,李茹,王智强,柴清华. 中文信息学报. 2015(06)
[4]汉语篇章修辞结构的标注研究[J]. 乐明. 中文信息学报. 2008(04)
[5]汉英语篇主题与段落结构模式的比较研究[J]. 李锦,廖开洪. 暨南学报(哲学社会科学版). 2001(05)
博士论文
[1]汉语篇章结构表示体系及资源构建研究[D]. 李艳翠.苏州大学 2015
硕士论文
[1]面向问答系统的复述识别技术研究与实现[D]. 徐帅.哈尔滨工业大学 2009
本文编号:3009369
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3009369.html