专利领域本体概念间非分类关系抽取研究
本文关键词:专利领域本体概念间非分类关系抽取研究,由笔耕文化传播整理发布。
【摘要】:在浩如烟海的信息面前,基于关键字的传统信息检索方式已经不能满足用户对信息检索快速、全面的要求。如何有效表示、管理、维护和复用信息资源已经成为产业界和研究者共同关心的研究领域。本体作为一种有效的知识组织和描述方式,具有良好的概念层次结构和丰富的概念间语义关系并且支持逻辑推理,因而在信息检索、数字图书馆、专利分析等领域得到广泛的研究和应用。概念是组成本体的基本内容之一,概念间分类关系是本体的骨架信息,概念间非分类关系是本体的枝干信息。根据本体学习的层次模型以及专利本体的应用需求可知,该专利本体还缺少概念间的非分类关系。因此知识库还是不完备的。为了构建完备的专利本体知识库,本文需要研究新能源汽车领域专利术语抽取问题和概念间非分类关系抽取问题。本文的主要工作如下:(1)提出一种基于条件随机场模型的中文专利领域术语抽取方法。本文针对新能源汽车领域的术语特点和总结前人术语抽取研究成果的基础上,利用成熟的条件随机场模型,选取词、词长、词性、依存关系、词典位置、停用词等特征进行新能源汽车领域中文术语的进行抽取。本文探索将词汇间的依存关系应用到术语抽取问题即将其作为条件随机场模型的一项特征。实验结果证明该方法可以有效提高术语抽取结果的正确率和召回率。(2)针对SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,提出句法分析特征和关系词词典特征并结合传统特征的关系抽取方法。将新特征和上下文、距离等传统特征相结合,使用支持向量机分类器进行SAO结构关系抽取实验。实验结果证明该方法可以削弱语义错误问题造成的影响,进而提高抽取结果的正确率和召回率。(3)设计并实现了基于专利文献的新能源汽车领域专利本体更新系统。专利本体的构建目的是为了将知识库应用于专利文献的检索、技术主题矩阵的构建、侵权检测等领域。随着专利文献的爆炸式增长,专利本体也需要与时俱进。本文实现的专利本体更新系统,主要实现三个功能,首先是使用上文中提到的方法从专利文献中抽取术语并加入到本体中;其次是从专利文献中抽取概念间的非分类关系,在将发现的关系加入到本体之前需要对抽取的关系词进行聚类操作,通过该操作发现关系类型;第三个功能是将新发现的术语和关系类型加入到本体中,关系实例作为关系类型的实例。通过以上三个功能就可以实现对新能源汽车领域专利本体的术语丰富和语义关系扩展。
【关键词】:本体学习 非分类关系 关系抽取 句法分析
【学位授予单位】:北京信息科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 绪论10-19
- 1.1 研究背景与意义10-12
- 1.1.1 研究背景10-12
- 1.1.2 研究意义12
- 1.2 课题研究现状12-16
- 1.2.1 术语抽取的研究现状12-13
- 1.2.2 非分类关系抽取研究现状13-14
- 1.2.3 SAO结构抽取研究现状14-15
- 1.2.4 本体在专利领域的应用15-16
- 1.3 主要工作和创新点16-17
- 1.4 论文的组织结构17-19
- 第2章 本体理论研究介绍19-24
- 2.1 本体概述19
- 2.2 本体描述语言19-21
- 2.3 本体构建工具21-22
- 2.4 本体学习分类22-23
- 2.5 本章小结23-24
- 第3章 专利领域中文术语抽取研究24-33
- 3.1 新能源汽车领域术语特点24-25
- 3.2 基于CRFs的新能源汽车领域术语抽取25-29
- 3.2.1 条件随机场25-26
- 3.2.2 术语抽取模型26
- 3.2.3 语言云26-27
- 3.2.4 特征选取27-29
- 3.3 实验结果及分析29-32
- 3.3.1 实验数据介绍29-30
- 3.3.2 结果和分析30-32
- 3.4 本章小结32-33
- 第4章 专利领域概念间SAO结构关系抽取33-42
- 4.1 基于支持向量机的概念间SAO结构关系抽取33-35
- 4.1.1 支持向量机33
- 4.1.2 领域关系强度33-34
- 4.1.3 概念间SAO结构关系抽取方法34-35
- 4.2 特征选择35-37
- 4.2.1 实体词语以及上下文特征35-36
- 4.2.2 句法特征36-37
- 4.2.3 词间距离37
- 4.2.4 关系词词典37
- 4.3 实验与结果分析37-42
- 4.3.1 实验描述37-38
- 4.3.2 实验预处理38
- 4.3.3 评价指标38-39
- 4.3.4 实验分析39-42
- 第5章 本体丰富系统的实现42-52
- 5.1 基于K-Means的领域动词聚类42-43
- 5.1.1 Word2Vec简介42
- 5.1.2 K-Means简介42-43
- 5.1.3 Java OWL API简介43
- 5.2 专利本体更新系统的设计43-46
- 5.2.1 术语抽取模块的设计44-45
- 5.2.2 SAO结构关系抽取模块的设计45-46
- 5.2.3 关系词聚类模块的设计46
- 5.2.4 本体操作模块的设计46
- 5.3 专利本体更新系统的实现46-52
- 5.3.1 系统架构46
- 5.3.2 开发环境46-47
- 5.3.3 系统展示47-52
- 第6章 总结与展望52-54
- 6.1 总结52-53
- 6.2 展望53-54
- 致谢54-55
- 参考文献55-59
- 个人简历 在学期间发表的学术论文与研究成果59
【相似文献】
中国期刊全文数据库 前10条
1 琚春华,王国征;你会选购收款机吗? 收款机应用功能与分类关系初探[J];市场与电脑;1998年06期
2 董丽丽;胡云飞;张翔;;一种领域概念非分类关系的获取方法[J];计算机工程与应用;2013年04期
3 乔建忠;;基于主题爬虫的本体非分类关系学习框架[J];图书情报工作;2010年18期
4 温春;石昭祥;辛元;;基于扩展关联规则的中文非分类关系抽取[J];计算机工程;2009年24期
5 古凌岚;孙素云;;基于语义依存的中文本体非分类关系抽取方法[J];计算机工程与设计;2012年04期
6 张立国;陈荔;;维基百科中基于语义依存的领域本体非分类关系获取方法研究[J];情报科学;2014年06期
7 贾秀玲;文敦伟;;一种本体学习中分类关系提取方法的研究[J];计算机技术与发展;2007年10期
8 余宏华;分类关系模型中的排它性维护及其应用[J];广东自动化与信息工程;2001年03期
9 王岁花;赵爱玲;马巍巍;;从Web中提取中文本体非分类关系的方法[J];计算机工程与设计;2010年02期
10 王红;高斯婷;潘振杰;肖志伟;;基于NNV关联规则的非分类关系提取方法及其应用研究[J];计算机应用研究;2012年10期
中国重要会议论文全文数据库 前2条
1 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 冯煤生;王德谋;;Fuzzy—分类关系[A];中国系统工程学会模糊数学与模糊系统委员会第五届年会论文选集[C];1990年
中国博士学位论文全文数据库 前1条
1 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前5条
1 何宇;专利领域本体概念间非分类关系抽取研究[D];北京信息科技大学;2015年
2 杨倩倩;基于种子自举的维吾尔文本体分类关系自动提取[D];新疆大学;2014年
3 梁吉震;基于领域概念知识的非分类关系学习研究[D];吉林大学;2012年
4 吴芳;基于语义相似度的本体中分类关系的评价研究与实现[D];华东师范大学;2010年
5 邓子平;面向医学诊疗的本体自动生成系统的研究与开发[D];广东工业大学;2011年
本文关键词:专利领域本体概念间非分类关系抽取研究,由笔耕文化传播整理发布。
,本文编号:385572
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/385572.html