当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文句间关系识别及其应用研究

发布时间:2019-02-13 03:03
【摘要】:随着互联网的飞速发展,底层信息抽取技术发展的日趋成熟,搜索引擎等互联网应用也对文本分析提出了更高的要求,不仅仅希望理解一个句子,更希望理解篇章,篇章语义分析逐渐引起了大家的重视。句间关系对篇章语义的分析具有重要的作用,在自然语言处理和信息检索的各个领域都有着重要的作用。句间关系中的因果关系对于问答系统的应用显而易见。所谓句间关系就是指在一个篇章中两个文本单元之间具有的语义关联。 本文针对中文句间关系进行系统性的研究。首先我们构建了由1096篇文本构成的句间关系语料,针对语料库的标注内容进行了数据分析,用以挖掘中文句间关系的语言表述特点。分析句间关系各关系之间语义歧义性等问题。句间关系可以分为显示句间关系和隐式句间关系两大类,,本文分别针对这两类关系根据其语言特点进行了识别研究。 显示句间关系是指具有明显关联词词连接的两个文本单元之间的关系,通过对语料的分析发现关联词对于句间关系具有很强的代表性,因此利用关联词规则的方法对显式句间关系识别进行了研究,研究发现利用关联词规则的方法针对显式关系的识别取得了较好的效果,更近一步利用机器学习与规则结合的方法取得了更为理想的效果,其中条件关系的F值达到了94.93%。 隐式句间关系相对于显式关系则相对具有更大的难度和挑战性,因为没有明显的关联词来关联两个文本单元。所以采用了基于机器学习的方法进行识别研究。分别利用最大熵模型和SVM模型进行建模,针对隐式关系抽取了相应的特征,实验发现SVM模型取得了更好的实验结果,最高扩展关系的F值达到了72.36%。同时针对实验所用特征进行了特征分析,其中关键词特征的表现最为出色,对各个关系都起到了很大的表征作用。由于有指导的构建训练语料对语料数量的限制,本文利用过滤后的显式关联词针对因果关系抽取了大量的关系实例,去掉关联词后构成了隐式关系,加入到训练语料中,实验结果表明此种方法使得实验结果的F值有了较为明显的提高。 最后,本文考察了句间关系在事件关系识别问题上的应用,以事件因果关系为例,发现加入句间关系特征后事件因果关系的识别效果要比传统的方法实验效果有明显的提升。
[Abstract]:With the rapid development of the Internet and the maturation of the underlying information extraction technology, Internet applications, such as search engines, have put forward higher requirements for text analysis, not only to understand a sentence, but also to understand a text. Text semantic analysis has gradually attracted much attention. Intersentence relations play an important role in the analysis of text semantics and in all fields of natural language processing and information retrieval. The application of causality in intersentence relations is obvious. The relationship between sentences refers to the semantic relation between two text units in a text. This paper makes a systematic study on the relationship between Chinese sentences. First of all, we construct a corpus of 1096 texts to analyze the tagging content of the corpus, so as to explore the linguistic characteristics of the relationship between Chinese sentences. This paper analyzes the semantic ambiguity among the relationships between sentences. The relationship between sentences can be divided into two categories: the explicit relationship and the implicit one. This paper studies the two types of relations according to their linguistic characteristics. Showing the relationship between sentences refers to the relationship between two text units with obvious connection words. Through the analysis of the corpus, it is found that the correlation words have strong representativeness for the relationship between sentences. Therefore, the method of association word rules is used to study the relationship recognition between explicit sentences, and it is found that the method of association word rules has achieved good results in the recognition of explicit relations. A more ideal result is obtained by combining machine learning with rules in a further step, in which the F value of conditional relation reaches 94.93. The relationship between implicit sentences is more difficult and challenging than the explicit relation because there are no obvious relevance words to correlate two text units. Therefore, the recognition method based on machine learning is adopted. The maximum entropy model and the SVM model are used to model the model, and the corresponding characteristics are extracted for the implicit relation. The experimental results show that the SVM model has better experimental results, and the F value of the maximum extended relationship reaches 72.36. At the same time, the features used in the experiment are analyzed, among which the key words are the most excellent, which plays a very important role in each relationship. Because of the restrictions on the quantity of the training corpus, this paper uses the filtered explicit relevance words to extract a large number of relational examples for causality, and forms an implicit relationship after removing the associated words, and adds them to the training corpus. The experimental results show that the F value of the experimental results is obviously improved by this method. Finally, this paper investigates the application of intersentence relationship in event relationship recognition. Taking event causality as an example, it is found that the effect of event causality recognition after adding the feature of inter-sentence relationship is significantly improved than that of the traditional experimental method.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 洪留荣;王耀才;;数学公式中字符和符号间空间关系的识别[J];计算机工程与应用;2006年12期

2 罗志成;马费成;吴晓东;宋倩倩;;从维基分类系统构建中文语义词典研究[J];信息系统学报;2008年02期

3 肖建于;王潜平;洪留荣;;基于凸壳和模糊识别的数学公式识别[J];计算机应用与软件;2008年05期

4 张合;王晓东;杨照岩;;本体驱动的面向主题的网页关系识别[J];河南师范大学学报(自然科学版);2009年02期

5 张巍;于洋;游宏梁;;面向词汇知识库自动构建的概念术语关系识别[J];现代图书情报技术;2009年11期

6 仲兆满;刘宗田;;利用事件影响关系识别文本集合中重要事件的方法[J];模式识别与人工智能;2010年03期

7 诸葛理绣;王军华;周晨;;基于信息系统架构的信息资产分类与关系识别[J];计算机系统应用;2009年07期

8 李文翔,晏蒲柳,张滨,夏德麟;基于语料库的关联词识别方法[J];计算机工程与应用;2004年07期

9 庄成龙;钱龙华;周国栋;;基于树核函数的实体语义关系抽取方法研究[J];中文信息学报;2009年01期

10 张奇;金培权;岳丽华;;基于CRF的网页动态关系抽取研究[J];中国科学技术大学学报;2010年11期

相关会议论文 前10条

1 游旭群;杨治良;;视觉空间关系识别中的认知加工特性研究[A];第九届全国心理学学术会议文摘选集[C];2001年

2 刘子军;冯白翎;郑远宏;;幼女被奸后大出血鉴定1例[A];中国法医学会全国第十次法医临床学学术研讨会论文集[C];2007年

3 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

4 姚天f ;;一种用于汉语信息抽取的词汇本体[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

6 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

7 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年

9 刘星华;;如何区别和确定某些定语从句和说明从句[A];国际交流学院科研论文集(第一期)[C];1994年

10 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关重要报纸文章 前10条

1 华静;七大诱惑诱发公务员热[N];中国改革报;2006年

2 本报记者 秦志勇 通讯员 温天庆 方海波;和谐—合力 创新—活力 发展—助力 支持—动力[N];人民政协报;2006年

3 通讯员 卢丹;让节约成为我们的自觉行动[N];中国石油报;2006年

4 本报记者 曹秀娟邋实习生 李涛;热议省城四个环保话题[N];山西日报;2008年

5 记者 洪奕宜 通讯员 粤纪宣;反腐促廉政 亮剑为民生[N];南方日报;2008年

6 舒伊;复合肥;2005继续辉煌?[N];中华合作时报;2005年

7 郭兆平 杨_g;省城空气质量报告[N];山西日报;2006年

8 曹保顺;2004年高考语文虚词解析[N];中国教育报;2004年

9 本报赴北京报道组 李煊清 华大学学生 郭贾雪 点评:中国新闻出版报副总编辑 张秀平;“鸟巢乐团”指挥人[N];河南日报;2006年

10 贾光;从保健酒业行业看名牌效应[N];中国工业报;2007年

相关博士学位论文 前10条

1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

2 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年

3 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年

4 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年

5 张瑞朋;现代汉语书面语中跨标点句句法关系约束条件的研究[D];北京语言大学;2007年

6 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年

7 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年

8 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年

9 宋刚;普通话儿童早期动词习得:范畴、论元结构与句法线索[D];北京语言大学;2009年

10 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年

相关硕士学位论文 前10条

1 宋原;中文句间关系识别及其应用研究[D];哈尔滨工业大学;2013年

2 王风娥;汉语文本中的时间关系识别技术研究[D];山西大学;2012年

3 刘莉;中文时间事件关系识别的方法研究[D];重庆大学;2012年

4 孙辉;事件时序关系识别的研究与实现[D];哈尔滨工业大学;2010年

5 焦福增;基于特征的产品评论挖掘关键问题研究[D];山东大学;2013年

6 顾雪峰;基于动态粒度思想的实体关系识别方法研究[D];山西大学;2006年

7 林永志;基于语义关系识别的二次检索[D];上海交通大学;2009年

8 程佳;热点新闻间关系的研究[D];上海交通大学;2011年

9 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年

10 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年



本文编号:2421103

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2421103.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户37b70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com