基于多种数据源的中文知识图谱构建方法研究
本文关键词:基于多种数据源的中文知识图谱构建方法研究
更多相关文章: 知识图谱构建 本体学习 开放链接数据 实体 自监督学习
【摘要】:自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。 本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作: 1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建的知识图谱的质量。 2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。 3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。 4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。 5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。 最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。
【关键词】:知识图谱构建 本体学习 开放链接数据 实体 自监督学习
【学位授予单位】:华东理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-7
- Abstract7-14
- 第1章 引言14-29
- 1.1 研究背景14-16
- 1.2 研究现状和存在的问题16-24
- 1.2.1 本体构建16-21
- 1.2.2 现有本体构建方法的不足21-22
- 1.2.3 知识图谱构建22-23
- 1.2.4 知识图谱相关研究存在的问题23-24
- 1.2.5 中文知识图谱构建的特殊性24
- 1.3 研究内容及意义24-26
- 1.3.1 研究内容24-25
- 1.3.2 主要研究贡献25-26
- 1.4 本文的组织26-29
- 第2章 知识图谱构建过程29-35
- 2.1 知识图谱的本体学习29-32
- 2.1.1 术语抽取29-30
- 2.1.2 同义关系抽取30
- 2.1.3 概念抽取30-31
- 2.1.4 分类学关系抽取31
- 2.1.5 非分类关系学习31-32
- 2.1.6 公理和规则学习32
- 2.2 实体层的学习32-33
- 2.2.1 实体学习32
- 2.2.2 实体数据填充32-33
- 2.2.3 实体对齐33
- 2.3 知识图谱的数据更新33-34
- 2.3.1 数据模式层的更新33-34
- 2.3.2 数据层的更新34
- 2.4 通用知识图谱和行业知识图谱构建的区别34
- 2.5 本章小结34-35
- 第3章 知识图谱构建的可用数据源分析35-54
- 3.1 数据源分析35-40
- 3.1.1 结构化数据35
- 3.1.2 机器可读的开放本体或辞典35-36
- 3.1.3 开放链接数据与开放知识库36-38
- 3.1.4 行业知识库和行业垂直网站38
- 3.1.5 在线百科38-40
- 3.1.6 文本40
- 3.2 数据源采集40-44
- 3.2.1 开放链接数据采集41
- 3.2.2 百科采集41-42
- 3.2.3 文本信息采集42-44
- 3.3 数据清洗44-53
- 3.3.1 常用的网页内容抽取方法44-45
- 3.3.2 基于启发式规则的网页正文内容抽取方法45-50
- 3.3.3 网页正文内容抽取方法评估50-51
- 3.3.4 论坛内容的抽取51-53
- 3.3.5 其它类型网页中内容的抽取53
- 3.4 本章小结53-54
- 第4章 基于多数据源的通用知识图谱构建54-92
- 4.1 概念和实体学习54-55
- 4.1.1 从开放链接数据集中抽取概念和实体54
- 4.1.2 从百科中抽取概念和实体54
- 4.1.3 同名多义概念或实体54-55
- 4.1.4 概念或实体的摘要信息55
- 4.2 实体对齐(同义关系学习)55-72
- 4.2.1 从开放链接数据集中抽取同义关系55
- 4.2.2 基于百科结构化数据的百科实体对齐55-56
- 4.2.3 基于SVM的自监督百科实体对齐方法56-61
- 4.2.4 开放链接数据集与百科间的实体对齐61
- 4.2.5 基于语言学模式的方法61
- 4.2.6 基于CRF的开放同义关系学习61-72
- 4.3 上下位关系学习72-76
- 4.3.1 从开放链接数据集中抽取上下位关系72-73
- 4.3.2 从百科中抽取上下位关系73-74
- 4.3.3 基于语言学模式的上下位关系抽取方法74
- 4.3.4 基于CRF的开放上下位关系学习方法74-75
- 4.3.5 分类树整合75-76
- 4.4 属性学习76-79
- 4.4.1 概念的属性学习(数据模式的学习)76
- 4.4.2 从开放链接数据集中抽取概念属性76
- 4.4.3 从百科中抽取实体属性76-77
- 4.4.4 实体属性升级成为概念属性77-78
- 4.4.5 概念属性的人工校验78
- 4.4.6 实体属性值的学习78-79
- 4.5 规则和公理学习79
- 4.6 学习过程中的冲突解决79-81
- 4.6.1 冲突发生点分析79-80
- 4.6.2 冲突检测80
- 4.6.3 冲突解决方法80-81
- 4.7 知识图谱的更新81-82
- 4.7.1 数据模式层的更新81
- 4.7.2 数据层的更新81-82
- 4.8 实验与结果分析82-90
- 4.8.1 学习语料82
- 4.8.2 知识图谱评估方法82
- 4.8.3 知识图谱结果概览82-83
- 4.8.4 概念评估83-84
- 4.8.5 实体评估84
- 4.8.6 实体对齐与同义关系评估84-85
- 4.8.7 基于SVM的自监督百科实体对齐方法评估85
- 4.8.8 基于语言学模式的同义学习方法评估85-86
- 4.8.9 基于CRF的开放同义关系学习方法评估86-88
- 4.8.10 上下位关系学习结果评估88-89
- 4.8.11 属性学习结果评估89
- 4.8.12 对比分析89-90
- 4.9 小结与讨论90-92
- 4.9.1 本章小结90
- 4.9.2 知识图谱构建讨论90-92
- 第5章 基于多数据源的行业知识图谱构建92-102
- 5.1 行业知识图谱构建92-93
- 5.2 从结构化数据中学习知识93-94
- 5.2.1 D2R93
- 5.2.2 结构化数据映射工具93-94
- 5.2.3 结构化数据知识映射94
- 5.3 行业知识库与行业网站的自动发现与抽取94-96
- 5.4 行业数据源解析96-98
- 5.5 从开放链接数据和在线百科中学习知识98
- 5.5.1 实体对齐98
- 5.5.2 实体的添加98
- 5.5.3 属性知识的学习98
- 5.6 从文本中学习知识98-99
- 5.7 实验与结果分析99-100
- 5.7.1 D2R分析99
- 5.7.2 行业知识库和行业专业网站的自动发现99
- 5.7.3 行业数据源解析与抽取99-100
- 5.7.4 从百科中学习鱼类知识图谱100
- 5.7.5 从文本中学习鱼类知识图谱100
- 5.8 本章小结100-102
- 第6章 知识图谱编辑与学习平台102-116
- 6.1 现有的知识编辑工具102-104
- 6.2 知识图谱协作编辑与学习平台设计104-105
- 6.3 功能详述105-109
- 6.3.1 知识学习配置106
- 6.3.2 数据模式定义106
- 6.3.3 基础知识编辑106
- 6.3.4 知识图谱的完整性和一致性106-107
- 6.3.5 并发协作编辑107
- 6.3.6 版本管理107
- 6.3.7 知识存储107-108
- 6.3.8 数据备份108
- 6.3.9 用户与权限管理108-109
- 6.4 编辑平台与学习算法的衔接109
- 6.5 知识图谱的应用109-115
- 6.5.1 语义检索109-112
- 6.5.2 知识导航112
- 6.5.3 决策支持112-114
- 6.5.4 知识图谱在行业中的应用114-115
- 6.6 本章小结115-116
- 第7章 总结和展望116-118
- 7.1 全文总结116
- 7.2 展望116-118
- 参考文献118-128
- 致谢128-129
- 附录1 攻读学位期间发表的学术论文129-130
- 附录2 攻读学位期间参加的科研项目130
【共引文献】
中国期刊全文数据库 前10条
1 毛海燕;;基于FrameNet的英汉词汇语义对比模式探索——以英汉情感框架词汇语义对比研究为例[J];外语学刊;2010年04期
2 夏晓;潘和平;;基于支持向量机的人民币兑美元汇率实证研究[J];管理学家(学术版);2010年08期
3 熊思;鲁静;;基于TW SVMs的入侵检测方法[J];湖北第二师范学院学报;2009年02期
4 罗向阳;刘粉林;杨春芳;王道顺;;基于最优小波包分解的图像隐写通用检测[J];中国科学:信息科学;2010年02期
5 陈涛;谢阳群;;基于支持向量机的外贸企业客户分类方法应用研究[J];情报科学;2006年07期
6 肖钠;;我国信息生态理论研究综述[J];情报科学;2011年07期
7 秦春秀;赵捧未;刘怀亮;;词语相似度计算研究[J];情报理论与实践;2007年01期
8 宋倩倩;关婉湫;张淑君;张勤;罗志成;;自组织知识系统与他组织知识系统的网络结构比较分析[J];情报理论与实践;2010年03期
9 谷俊;严明;王昊;;基于改进关联规则的本体关系获取研究[J];情报理论与实践;2011年12期
10 刘平兰;数字图书馆中基于关系图的篇章分析方法研究[J];情报杂志;2003年12期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
6 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
9 刘英林;刘洪鹏;g窃,
本文编号:913546
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/913546.html