中文句间关系识别及其应用研究
[Abstract]:With the rapid development of the Internet and the maturation of the underlying information extraction technology, Internet applications, such as search engines, have put forward higher requirements for text analysis, not only to understand a sentence, but also to understand a text. Text semantic analysis has gradually attracted much attention. Intersentence relations play an important role in the analysis of text semantics and in all fields of natural language processing and information retrieval. The application of causality in intersentence relations is obvious. The relationship between sentences refers to the semantic relation between two text units in a text. This paper makes a systematic study on the relationship between Chinese sentences. First of all, we construct a corpus of 1096 texts to analyze the tagging content of the corpus, so as to explore the linguistic characteristics of the relationship between Chinese sentences. This paper analyzes the semantic ambiguity among the relationships between sentences. The relationship between sentences can be divided into two categories: the explicit relationship and the implicit one. This paper studies the two types of relations according to their linguistic characteristics. Showing the relationship between sentences refers to the relationship between two text units with obvious connection words. Through the analysis of the corpus, it is found that the correlation words have strong representativeness for the relationship between sentences. Therefore, the method of association word rules is used to study the relationship recognition between explicit sentences, and it is found that the method of association word rules has achieved good results in the recognition of explicit relations. A more ideal result is obtained by combining machine learning with rules in a further step, in which the F value of conditional relation reaches 94.93. The relationship between implicit sentences is more difficult and challenging than the explicit relation because there are no obvious relevance words to correlate two text units. Therefore, the recognition method based on machine learning is adopted. The maximum entropy model and the SVM model are used to model the model, and the corresponding characteristics are extracted for the implicit relation. The experimental results show that the SVM model has better experimental results, and the F value of the maximum extended relationship reaches 72.36. At the same time, the features used in the experiment are analyzed, among which the key words are the most excellent, which plays a very important role in each relationship. Because of the restrictions on the quantity of the training corpus, this paper uses the filtered explicit relevance words to extract a large number of relational examples for causality, and forms an implicit relationship after removing the associated words, and adds them to the training corpus. The experimental results show that the F value of the experimental results is obviously improved by this method. Finally, this paper investigates the application of intersentence relationship in event relationship recognition. Taking event causality as an example, it is found that the effect of event causality recognition after adding the feature of inter-sentence relationship is significantly improved than that of the traditional experimental method.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 洪留荣;王耀才;;数学公式中字符和符号间空间关系的识别[J];计算机工程与应用;2006年12期
2 罗志成;马费成;吴晓东;宋倩倩;;从维基分类系统构建中文语义词典研究[J];信息系统学报;2008年02期
3 肖建于;王潜平;洪留荣;;基于凸壳和模糊识别的数学公式识别[J];计算机应用与软件;2008年05期
4 张合;王晓东;杨照岩;;本体驱动的面向主题的网页关系识别[J];河南师范大学学报(自然科学版);2009年02期
5 张巍;于洋;游宏梁;;面向词汇知识库自动构建的概念术语关系识别[J];现代图书情报技术;2009年11期
6 仲兆满;刘宗田;;利用事件影响关系识别文本集合中重要事件的方法[J];模式识别与人工智能;2010年03期
7 诸葛理绣;王军华;周晨;;基于信息系统架构的信息资产分类与关系识别[J];计算机系统应用;2009年07期
8 李文翔,晏蒲柳,张滨,夏德麟;基于语料库的关联词识别方法[J];计算机工程与应用;2004年07期
9 庄成龙;钱龙华;周国栋;;基于树核函数的实体语义关系抽取方法研究[J];中文信息学报;2009年01期
10 张奇;金培权;岳丽华;;基于CRF的网页动态关系抽取研究[J];中国科学技术大学学报;2010年11期
相关会议论文 前10条
1 游旭群;杨治良;;视觉空间关系识别中的认知加工特性研究[A];第九届全国心理学学术会议文摘选集[C];2001年
2 刘子军;冯白翎;郑远宏;;幼女被奸后大出血鉴定1例[A];中国法医学会全国第十次法医临床学学术研讨会论文集[C];2007年
3 李丹;罗智勇;;基于序列模式挖掘的人物关系识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 姚天f ;;一种用于汉语信息抽取的词汇本体[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 刘德荣;王永成;;基于词典和语料库的概念内聚度研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 刘海涛;;影响依存句法分析的因素探讨[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 刘星华;;如何区别和确定某些定语从句和说明从句[A];国际交流学院科研论文集(第一期)[C];1994年
10 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关重要报纸文章 前10条
1 华静;七大诱惑诱发公务员热[N];中国改革报;2006年
2 本报记者 秦志勇 通讯员 温天庆 方海波;和谐—合力 创新—活力 发展—助力 支持—动力[N];人民政协报;2006年
3 通讯员 卢丹;让节约成为我们的自觉行动[N];中国石油报;2006年
4 本报记者 曹秀娟邋实习生 李涛;热议省城四个环保话题[N];山西日报;2008年
5 记者 洪奕宜 通讯员 粤纪宣;反腐促廉政 亮剑为民生[N];南方日报;2008年
6 舒伊;复合肥;2005继续辉煌?[N];中华合作时报;2005年
7 郭兆平 杨_g;省城空气质量报告[N];山西日报;2006年
8 曹保顺;2004年高考语文虚词解析[N];中国教育报;2004年
9 本报赴北京报道组 李煊清 华大学学生 郭贾雪 点评:中国新闻出版报副总编辑 张秀平;“鸟巢乐团”指挥人[N];河南日报;2006年
10 贾光;从保健酒业行业看名牌效应[N];中国工业报;2007年
相关博士学位论文 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
3 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
4 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
5 张瑞朋;现代汉语书面语中跨标点句句法关系约束条件的研究[D];北京语言大学;2007年
6 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
7 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
8 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
9 宋刚;普通话儿童早期动词习得:范畴、论元结构与句法线索[D];北京语言大学;2009年
10 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年
相关硕士学位论文 前10条
1 宋原;中文句间关系识别及其应用研究[D];哈尔滨工业大学;2013年
2 王风娥;汉语文本中的时间关系识别技术研究[D];山西大学;2012年
3 刘莉;中文时间事件关系识别的方法研究[D];重庆大学;2012年
4 孙辉;事件时序关系识别的研究与实现[D];哈尔滨工业大学;2010年
5 焦福增;基于特征的产品评论挖掘关键问题研究[D];山东大学;2013年
6 顾雪峰;基于动态粒度思想的实体关系识别方法研究[D];山西大学;2006年
7 林永志;基于语义关系识别的二次检索[D];上海交通大学;2009年
8 程佳;热点新闻间关系的研究[D];上海交通大学;2011年
9 刘飒;专业领域可比语料的构建与评价研究[D];南京理工大学;2012年
10 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
本文编号:2421103
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2421103.html