当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于平行推理机制的隐式篇章关系检测研究

发布时间:2018-02-11 03:59

  本文关键词: 隐式篇章关系 平行推理 检索驱动 关系消歧 双语协作 出处:《苏州大学》2013年硕士论文 论文类型:学位论文


【摘要】:篇章关系分析是自然语言处理的一个核心问题。在篇章研究领域中,篇章是指一系列连续子句、句子或语段构成的语言整体;而篇章关系是指同一篇章中,不同论元之间的语义逻辑关系(如因果关系、转折关系等)。其中,论元是一种具有完整语义并表述独立观点的文字片段。篇章关系分析任务即是对两个不同论元(也称一组论元对)之间的具体篇章关系类型进行识别与判定。根据论元之间是否存在显式连接词(也称作线索词,如“因为”、“但是”等),可将篇章关系分为显式关系和隐式关系,相应的论元即被称为显式论元与隐式论元。现有研究对显式关系分析已具有较好的推理效果,而对缺失连接词的隐式关系尚无法有效处理。 本文针对两个毗邻且隐式相关的论元,提出了一种基于平行推理机制的隐式篇章关系检测方法。核心思想是根据“论元语义平行,则论元关系平行”的理论假设,即某显式论元对与隐式论元对在句子结构以及语义层面上均相近,也就是说语义平行,,则这两个论元对的语义连接关系应相同,并借助信息检索技术,从大规模数据集中挖掘平行的语义论元集合及其论元关系的显式线索,从而建立无指导的隐式篇章关系检测系统。主要研究内容包括以下三个方面: 1)检索驱动的隐式关系平行推理机制 借助大规模Web信息,实现平行论元的自动挖掘和平行关系的自主推理。一方面,在挖掘平行论元过程中,重点依赖信息检索技术,通过构建高质量查询关键词,从搜索引擎中挖掘语义表述相近的平行论元及线索;另一方面,构建三种篇章关系推理模型,从各方面对挖掘出的平行论元及语义线索进行质量评估,最终选择质量最优的N个平行论元,借助高质量平行论元中语义线索与篇章关系的映射体系实现隐式篇章关系推理。 2)平行推理中歧义线索消歧 在基于平行推理机制实现隐式篇章关系检测任务中,推理线索存在两方面的歧义: (1)线索连接词本身的一词多义现象;(2)混淆连接关系的伪线索词存在。两类歧义都将影响最终隐式篇章关系检测性能。因此,本文从基于局部最优的连接词词义消歧以及基于潜在连接词识别的伪连接词过滤两个方面,对平行推理过程中的歧义线索进行消歧,以提高隐式篇章关系检测性能。 3)基于双语协作的平行推理优化 在检索驱动挖掘平行论元及语义线索的过程中,由于部分隐式论元的词汇信息有限或搜索引擎检索性能限制,导致挖掘的平行论元数量少甚至为零,不利于平行论元与隐式论元之间平行关系的正确推理。因此,本文尝试通过跨语言信息检索技术,从搜索引擎中挖掘另一种语言的平行论元及推理线索,以此来扩充平行资源,使得平行关系推理依据更充分更丰富,从而进一步优化隐式篇章关系检测。
[Abstract]:Text relation analysis is a core problem of natural language processing . In the field of chapter research , the text refers to a series of continuous clauses , sentences or language whole ; and the chapter relation refers to the semantic logical relation ( such as causality , conversion relationship , etc . ) between different arguments in the same chapter . On the basis of whether there is explicit connection between elements ( also known as clue words , such as " because " , " but " , etc . ) , it can be divided into explicit relation and implicit relationship . In this paper , we propose an implicit text relationship detection method based on parallel inference mechanism for two adjacent and implicit theory elements . The core idea is that the semantic connection relation of the two theory elements should be the same , that is , the semantic parallelism is similar to that of the implicit theory element in the structure of sentence structure and the semantic level , that is , the semantic parallelism , then the explicit clues of the parallel semantic theory element set and its theory element relation are excavated from the large - scale data set , and the hidden chapter relation detection system without guidance is established . 1 ) Parallel Inference Mechanism of Implicit Relations Driven by Retrieval On the one hand , based on the large - scale Web information , the autonomous reasoning of automatic mining and parallel relation of the parallel theory elements is realized . On the one hand , in the process of mining the parallel theory , the emphases are on the information retrieval technology . By constructing the high - quality query key words , the parallel theory elements and the clues that are close to the semantic expressions are excavated from the search engine . On the other hand , three chapters are constructed , and N parallel theory elements with optimal quality are constructed , and the implicit chapter relationship reasoning is realized by the mapping system of the semantic clues and the text relation in the high - quality parallel argument . 2 ) Disambiguity in Parallel Reasoning In the task of realizing implicit text relation detection based on parallel inference mechanism , two aspects of reasoning lead exist : ( 1 ) The word ambiguity of the thread connection word itself ; ( 2 ) the existence of a pseudo - clue word which confuses the connection relation . Both types of ambiguity will affect the performance of the final implicit text relationship detection . Therefore , this paper attempts to disprove the ambiguous clue in the process of parallel inference based on the local optimal connectives and the false connection word filtering based on the potential connection word recognition , so as to improve the detection performance of the implicit text relationship . 3 ) Parallel reasoning optimization based on bilingual collaboration In the process of retrieving and driving parallel argument and semantic clue , due to the limited vocabulary information of partial implicit theory or the search performance limitation of search engine , this paper attempts to expand the parallel resources by using the technique of cross - language information retrieval , mining the parallel theory element and reasoning clue of another language from the search engine , so that the parallel relationship reasoning is more abundant and richer , thus further optimizing the implicit text relation detection .

【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【共引文献】

相关期刊论文 前10条

1 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期

2 王逢鑫;论象声词——英汉象声词语义比较[J];北京大学学报(英语语言文学专刊);1992年02期

3 王逢鑫;论感叹词——英汉感叹词语义比较[J];北京大学学报(外国语言文学专刊);1999年S1期

4 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期

5 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期

6 彭宣维;认知发展、隐喻映射与词义范畴的延伸——现代汉语词汇系统形成的认知机制[J];北京师范大学学报(社会科学版);2004年03期

7 彭宣维,冉永平;英汉数量语、特征语和类别语比较 .[J];重庆大学学报(社会科学版);1997年03期

8 罗益民;邹墨姝;;高级英汉学习词典中隐喻栏的设置[J];重庆交通大学学报(社会科学版);2010年05期

9 王彩云;;面向中文信息处理的状动结构语义搭配[J];重庆与世界;2010年11期

10 王惠,李康年;大型词典编纂的计算机辅助开发与管理系统[J];辞书研究;2004年02期

相关会议论文 前10条

1 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年

2 卢伟清;苏新春;;词义开放处理平台的研究和实现[A];第六届汉语词汇语义学研讨会论文集[C];2005年

3 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年

4 姚天f ;;一种用于汉语信息抽取的词汇本体[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年

6 刘鸣洋;由丽萍;;汉语感知词语的语义角色标注规则初探[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

7 伊力亚尔·加尔木哈买提;尼亚子别克·阿不都加勒力;;哈萨克文自动文本摘要方法浅谈[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

8 邱立坤;邵艳秋;;语义词典归类不当现象自动发现[A];第六届全国信息检索学术会议论文集[C];2010年

9 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年

10 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关硕士学位论文 前10条

1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年

2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年

3 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年

4 柴艳丽;复音同义词检索与分析系统的设计与研究[D];广西民族大学;2010年

5 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年

6 林桦;汉英基本色彩词的文化内涵差异及其对外汉语教学对策[D];暨南大学;2010年

7 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年

8 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年

9 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年

10 吴启纲;中文文本聚类算法的研究与实现[D];西安电子科技大学;2010年



本文编号:1502155

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1502155.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7571b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com