面向自然语言文本的否定性与不确定性识别研究

发布时间:2017-03-20 04:00

  本文关键词:面向自然语言文本的否定性与不确定性识别研究,由笔耕文化传播整理发布。


【摘要】:自然语言文本中存在大量否定性与不确定性语言现象,反映了人类在使用语言表达观点时的态度,亦或者语言信息本身的可信度。语言的否定性指,由否定运算符对命题本身或其某一方面的语义进行了反转;语言的不确定性指,包含了情态、言据性、或然性、主观性等任何一类语义,介于肯定和否定语义之间。识别并理解自然语言的否定性与不确定性,对更深层次的自然语言理解具有重要意义,并且随着自然语言处理领域相关应用的不断增长,该研究受到越来越多的关注,如信息抽取、情感分析、信息检索、机器翻译等研究。面向自然语言文本的否定性与不确定性识别研究主要包含三个子任务:1)触发词检测,即识别出文本中表达否定或不确定语义的关键词;2)覆盖域界定,即在句子内,判定否定或不确定语义的作用范围;3)聚焦点识别,指在覆盖域中识别被否定语义强调的内容。本文研究围绕以上三个任务展开。首先,本文提出了基于树核的覆盖域界定模型,有效并充分地利用结构化句法特征,提高了该任务的性能;其次,本文提出了基于“词-主题”双层结构图模型的聚焦点识别方法,该方法通过上下文信息判断聚焦点;为推动该研究在汉语上的进展,本文构建了首个汉语否定性与不确定性语料库;最后,本文针对汉语的语言特点提出了一套完整的面向汉语的否定性与不确定性识别方法。具体地,本研究的主要内容包括以下四个方面:1.基于树核的覆盖域界定模型。覆盖域是指触发词的语义作用范围,大量研究表明,句法特征是判定覆盖域的重要证据,然而,相关工作通常仅考虑平面化的句法特征,即用特征向量来表示句法结构,该表示方法很难恰当并全面地反映触发词与覆盖域在句法结构上的关系。因此,本文提出了两种类型的子树结构来提取触发词与覆盖域之间的关系特征,并利用卷积树核模型衡量这些结构特征之间的相似度,进而确定覆盖域。此外,本文还尝试采用复合核将平面化特征与结构化特征进行融合,提高了现有覆盖域界定方法的性能。2.基于“词-主题”双层结构图模型的聚焦点识别方法。不同于面向语音语料的相关研究能够利用重音和语调等特征,面向文本的聚焦点识别研究仅根据词法和句法特征识别聚焦点。通过对聚焦点实例的人工标注及统计,本文发现上下文语境中包含了大量判断聚焦点的线索。因此,本文提出了基于“词-主题”的双层结构图模型,利用上下文中的线索及特征来识别聚焦点。此外,作为无监督模型,该方法还减少了人工标注的开销。实验结果表明,本文的方法能够有效地利用上下文中的信息识别否定聚焦点,其性能优于目前已知最好的系统。3.构建汉语否定性与不确定性语料库。目前,面向汉语的否定性与不确定性识别研究进展缓慢,其中最主要的原因是缺乏一个具有一定规模的语料库。因此,本文构建了汉语否定性与不确定性语料库,该语料库是首个已发布的针对文本否定性与不确定性研究的汉语语料库。考虑到语料在领域和文体上应具备异构性,以便充分反映和体现语言现象和特点,汉语否定性与不确定性语料库包含了科技文献、财经文章、酒店评论三个类别,其规模达到16,841句,包含6,429个实例,与目前英文中使用最频繁的Bio Scope语料库规模相近。相关统计和实验结果表明,本文构建的语料库较全面地体现了汉语中否定性与不确定性语义的特点,为相关研究提供了语料资源支持。4.面向汉语的否定性与不确定性识别研究。由于汉语与英语在语法结构及语义表达等诸多方面均存在较大差别,直接将英语中的否定性与不确定性识别方法应用在汉语上时,系统性能大幅下降。因此,针对触发词检测,本文提出了一套适用于汉语的新特征,尤其是词素特征,同时还采用了跨语言触发词扩展策略,识别出现频率较低的触发词;针对覆盖域界定,本文提出了基于元决策树的方法,该方法有效融合了序列化特征和结构化特征。本文工作构建了首个面向汉语的否定性与不确定性识别系统,希望能够为相关研究提供基线系统,并促进该研究在汉语上的开展。总之,本文致力于面向自然语言文本的否定性与不确定性识别研究,一方面提出了有效方法来提高相关任务的性能,一方面尝试推动该研究在汉语上的进展。期待本文取得的初步成果能够对该领域的相关研究产生一定的参考价值,促进自然语言深层理解技术的发展。
【关键词】:否定 不确定 触发词检测 覆盖域界定 聚焦点识别
【学位授予单位】:苏州大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-13
  • 第1章 绪论13-32
  • 1.1 研究背景和意义13-16
  • 1.1.1 自然语言文本中的否定性与不确定性13-15
  • 1.1.2 否定性与不确定性识别的应用15-16
  • 1.2 国内外研究现状16-30
  • 1.2.1 语料资源建设16-21
  • 1.2.1.1 Bio Scope医学语料库17-19
  • 1.2.1.2 维基百科语料19-20
  • 1.2.1.3 Conan Doyle小说语料20
  • 1.2.1.4 汉语语料建设20-21
  • 1.2.2 否定性与不确定性识别相关研究21-26
  • 1.2.2.1 触发词检测22-23
  • 1.2.2.2 覆盖域界定23-26
  • 1.2.2.3 聚焦点识别26
  • 1.2.2.4 面向汉语的否定性与不确定性识别26
  • 1.2.3 否定性与不确定性识别评测26-28
  • 1.2.3.1 评测方法26-28
  • 1.2.3.2 否定性与不确定性识别评测任务28
  • 1.2.4 尚且存在的问题28-30
  • 1.3 本文的研究内容及章节安排30-32
  • 第2章 基于树核的否定与不确定覆盖域界定32-48
  • 2.1 引言32
  • 2.2 基于序列标注的否定与不确定触发词检测32-34
  • 2.3 基于树核的否定与不确定覆盖域界定34-40
  • 2.3.1 关系树特征34-36
  • 2.3.2 树核模型36
  • 2.3.3 平面特征与结构化特征融合36-39
  • 2.3.4 词性驱动的多分类器融合策略39-40
  • 2.3.5 相关研究40
  • 2.4 实验与分析40-47
  • 2.4.1 实验设置40-41
  • 2.4.2 实验结果及讨论41-47
  • 2.4.2.1 对基于序列标注的触发词检测方法的评价41-42
  • 2.4.2.2 覆盖域界定42-47
  • 2.5 本章小节47-48
  • 第3章 基于双层图模型的否定聚焦点识别48-63
  • 3.1 引言48-49
  • 3.2 相关研究49
  • 3.3 基于“词-主题”双层图模型的否定聚焦点识别49-56
  • 3.3.1 基于词的图模型51-52
  • 3.3.2 主题层52-53
  • 3.3.3“词-主题”双层图模型53-55
  • 3.3.4 否定聚焦点识别55-56
  • 3.4 实验与分析56-62
  • 3.4.1 实验设置56
  • 3.4.2 参数对方法性能的影响56-60
  • 3.4.3 基于“词-主题”双层图模型的否定聚焦点识别方法评价60-61
  • 3.4.4 本文方法与其它相关方法的性能比较61-62
  • 3.5 本章小结62-63
  • 第4章 汉语否定性与不确定性语料库构建63-75
  • 4.1 引言63
  • 4.2 语料资源63-64
  • 4.3 标注规范64-69
  • 4.3.1 标注总则64-65
  • 4.3.2 否定性语义标注65-66
  • 4.3.3 不确定语义标注66-68
  • 4.3.4 特殊标注规则68-69
  • 4.4 语料库统计与分析69-73
  • 4.4.1 标注过程69-70
  • 4.4.2 语料库统计70-73
  • 4.4.3 一致性分析73
  • 4.5 本章小结73-75
  • 第5章 面向汉语的否定性与不确定性识别研究75-103
  • 5.1 引言75
  • 5.2 面向汉语的否定与不确定触发词检测75-79
  • 5.2.1 基于序列标注的触发词检测75-77
  • 5.2.2 跨语言的触发词扩展方法77-79
  • 5.3 面向汉语的否定与不确定覆盖域界定79-85
  • 5.3.1 基于序列标注的覆盖域界定模型79-80
  • 5.3.2 基于卷积树核的覆盖域界定模型80-82
  • 5.3.3 基于元决策树的覆盖域界定模型82-84
  • 5.3.4 基于依存句法规则的后处理方法84-85
  • 5.4 实验与分析85-101
  • 5.4.1 实验设置85-88
  • 5.4.2 面向汉语的触发词检测系统性能及分析88-92
  • 5.4.2.1 基于序列标注的触发词检测性能及分析88-91
  • 5.4.2.2 跨语言触发词扩展方法的性能和分析91-92
  • 5.4.3 面向汉语的覆盖域界定系统性能及分析92-98
  • 5.4.3.1 基于序列标注模型的覆盖域界定性能及分析93-94
  • 5.4.3.2 基于卷积树核的覆盖域界定系统性能及分析94-96
  • 5.4.3.3 基于元决策树的覆盖域界定系统性能及分析96-97
  • 5.4.3.4 覆盖域界定后处理方法性能及分析97-98
  • 5.4.4 对比实验及分析98-101
  • 5.5 本章小结101-103
  • 第6章 总结与展望103-106
  • 6.1 总结103-104
  • 6.2 展望104-106
  • 参考文献106-115
  • 攻读博士学位期间的论文及科研工作115-117
  • 致谢117-119

【相似文献】

中国期刊全文数据库 前10条

1 张廷远;;河南省红色旅游景区语言文本现状的调查及思考[J];开封大学学报;2010年04期

2 高影繁;徐红姣;于薇;王惠临;;基于跨语言文本分类的多语资源组织方法研究[J];情报理论与实践;2011年10期

3 熊超;王明文;吴福英;吴世勇;沈阳;;基于潜在语义对偶空间的跨语言文本分类研究[J];广西师范大学学报(自然科学版);2010年01期

4 杜家利;于屏方;;自然语言文本语义接受度的在线系统评价研究[J];计算机工程与应用;2008年26期

5 章成志;王惠临;;多语言文本聚类研究综述[J];现代图书情报技术;2009年06期

6 史树敏;黄河燕;刘东升;;自然语言文本指代消解技术研究[J];计算机科学;2007年12期

7 彭静;罗伟;;一种从自然语言文本到本体模型的转换方法[J];电大理工;2011年02期

8 冯志伟;;汉字的极限熵[J];中文信息;1996年02期

9 陈启泉;吴扬扬;郑跃斌;;CTDPS查询语言文本与实现[J];华侨大学学报(自然科学版);1985年02期

10 杨建龙;王建民;王朝坤;李德毅;;基于胎记技术的自然语言文本版权保护方案[J];计算机工程;2007年24期

中国重要会议论文全文数据库 前4条

1 伊·达瓦;井佐原均;;蒙古语多文种-多语言文本-口语语料库的建设[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年

3 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

4 曹晖;于洪志;;OpenOffice的国际化与本地化机制[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

中国重要报纸全文数据库 前1条

1 袁原;有机器翻译还用学外语吗?[N];经济参考报;2014年

中国博士学位论文全文数据库 前2条

1 邹博伟;面向自然语言文本的否定性与不确定性识别研究[D];苏州大学;2015年

2 朱泽德;网络双语语料挖掘关键技术研究[D];中国科学技术大学;2014年


  本文关键词:面向自然语言文本的否定性与不确定性识别研究,,由笔耕文化传播整理发布。



本文编号:257079

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/257079.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61b92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com