当前位置:主页 > 科技论文 > 水利工程论文 >

水务知识图谱构建的技术研究与系统实现

发布时间:2020-04-02 10:29
【摘要】:随着水利信息的发展,水务数据存在的多源异构性和数据量庞大等问题越来越严重。北京市水务局内部拥有大量结构化监测数据和非结构化文本数据,且数据存储位置多样化,除此之外网络上也存在大量水务相关数据。需要从对象分类层面以及数据类型层面对这些数据进行整合,从而进一步实现数据的共享以便于水务相关人员查询数据。基于当前水务数据的分布和用户对综合数据的需求,有必要开发一种能够集成大量多源异构数据并进行应用的模型。利用知识图谱,可以进行数据的整合以及知识的可视化和信息推荐。因此,面对上述这些情况,本文需要寻找针对于水务数据的知识图谱的构建方法,从而建立一个水务知识图谱构建系统,实现知识图谱在水务业务中的应用。本文全面介绍了水务知识图谱构建和应用过程的相关技术,主要包含以下几方面工作:首先,需要更深入地了解知识图谱的构建背景以及现状,现有的数据特点和知识图谱的应用现状等问题。本文选择自顶向下和自底向上相结合的综合性方法来构建水务顶层知识图谱,借鉴了Wordnet词库、Dbpedia词典、水行业标准文档及水务专家知识经验。其中结构化数据使用的是D2RQ工具执行的RDF文本的数据转换,非结构化数据运用Jieba进行文本分词,连接CN-Dbpedia网络词典扩展词汇信息,并使用Jena工具实现RDF文本的转换。转换后的RDF文件与先前构建好的水务顶层知识图谱进行实体对齐,以实现结构化数据与非结构化文本数据的挂接。最后基于构建的水务知识图谱完成水务信息的推荐。在实体对齐的过程中,分别尝试使用编辑距离算法、Jaccard算法和欧式距离算法对结构化数据进行分类挂接。同时,分别使用LDA算法、LSI算法和TF-IDF算法对非结构化数据进行分类挂接。经过对比实验与结果的分析,发现编辑距离算法和LDA算法的评价结果均优于其它几种算法的评价结果,从而验证了水务知识图谱构建的有效性和准确性。基于构建好的水务知识图谱,制定相关查询规则并使用语义距离算法进行水务信息推荐。推荐结果不但实现了水务信息的共享,而且验证了所构建的水务知识图谱的准确性。本文在开发层面采用Xitrum框架,建立了水务知识图谱的构建系统,并详细的说明了每个系统的主要功能以及各个子模块的功能,最后对主要页面进行了展示。水务知识图谱的构建系统依托于《水体污染控制与治理科技重大专项》这一国家级项目,对水务行业的数据进行全方位的整合,能够在未来的决策等事件中发挥重大作用,具有实际的意义。
【图文】:

模型图,系统核心,模型,知识图


识图谱可以有效地整合水务数据,本文针对于水务数据的特点制定了水谱的构建方法,且构建好的水务知识图谱可以应用于不同的系统平台中据的查询共享。核心模型对水务数据的特点,初步得出水务知识图谱构建的模型如图 2-3 所示。 模型中能够看出,首先在顶层知识图谱的构建层中,运用数据概念结合的关系在 Neo4j 平台中构建顶层水务知识图谱;数据源的处理使用 D2 jena 工具分别将结构化数据及非结构化数据转换为 RDF 格式文件,并知识图谱的数据层;接着分别利用编辑距离算法和 LDA 算法在 Neo4j据层与顶层知识图谱之间的挂接,同时运用 protégé平台在水务知识图语义规则;最后,在最终形成的知识图谱上运用 Neo4j 中的 Bloom 工务知识图谱的可视化,并运用语义距离算法结合语义规则做水务信息推。

主体框架,组件


第 2 章 水务知识图谱构建技术简介D2R 主要包含 D2R 服务器、D2RQ Mapping 及 D2RQ Engine[37]。其中,,器使用 D2RQ 映射语言来捕获应用程序,特定的数据库模式和 RDFS 模L 本体之间的映射。D2R 服务器包括一个可以从数据库的表结构自动Q 映射的工具。该工具为每个数据库生成新的 RDF 词汇表,将表名称称,将列名称作为属性名称。然后可以通过使用已知的 RDF 词汇表中换自动生成的术语来定制映射。D2RQ Mapping 指定如何标识资源以及据库内容生成属性值[38]。D2rq 中的中心对象是 ClassMap。。Classmap据库中描述的一组实体到一类或一组类似资源类的映射。每个 ClassM组 PropertyBridges,它们指定如何创建资源描述。可以直接从数据库值式或转换表创建属性值。D2RQ 支持 ClassMap 和 PropertyBridge 级别的,n:m 关系的映射,并且可以处理高度规范化的表结构,其中实体描述个表中。D2RQ Engine 主要功能是运用 D2RQ Mapping 文件把结构化数 RDF 格式的文本数据[39]。如图 2-4 是 D2RQ 组件的主体架构。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TV21-39;TP311.13

【参考文献】

相关期刊论文 前6条

1 田雨;蒋云钟;杨明祥;;智慧水务建设的基础及发展战略研究[J];中国水利;2014年20期

2 熊永兰;张志强;Wei Yongping;刘志辉;程国栋;;基于科学知识图谱的水文化变迁研究方法探析[J];地球科学进展;2014年01期

3 胡泽文;孙建军;武夷山;;国内知识图谱应用研究综述[J];图书情报工作;2013年03期

4 陈天;刘文浩;;相似度算法分析与比较研究[J];现代计算机(专业版);2012年18期

5 白海燕;梁冰;;利用D2R实现关系数据库与关联数据的语义模式映射[J];现代图书情报技术;2011年Z1期

6 章勇;吕俊白;;基于Protege的本体建模研究综述[J];福建电脑;2011年01期

相关硕士学位论文 前3条

1 边慧珍;基于WordNet的蒙古文领域知识图谱构建方法研究[D];内蒙古师范大学;2018年

2 王冬楠;基于Jena的关联数据语义导航技术[D];大连海事大学;2015年

3 黄志聃;利用protege构建新媒体领域本体的探索[D];武汉理工大学;2013年



本文编号:2611830

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shuiwenshuili/2611830.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d824***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com