当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于知识图谱的开放空间知识采集系统

发布时间:2020-06-03 19:49
【摘要】:互联网的信息大多以网页形式进行存储,通过超链接将网络上的文档链接起来。人们能够理解文档中的信息,但是计算机却不能充分理解文档信息。传统的知识库主要是帮助用户直观地理解处理,无法提供可以被计算机理解的语义信息,对知识服务与组织过程中的逻辑推理和智能联想有很大的限制和局限性。基于知识图谱,复杂的语义处理可以依据本体模型对信息实体进行语义标注,生成关于生物学科的知识网络,达到对知识语义层面的组织。基于知识图谱,开发此开放空间知识采集系统,为其他系统提供外部数据支持。本文主要工作如下:(1)对涉及的相关技术进行介绍。主要包含资源描述框架、图数据库、MVC模式和网络爬虫。(2)在充分进行调研的基础上,对系统进行需求分析。主要包含系统的用户需求、功能需求、性能需求和安全性需求。(3)在需求分析的基础上,对系统进行详细设计。主要包含系统总体设计、系统具体模块设计、系统数据库和类设计。其中系统具体模块设计包含词条加工模块、数据爬取模块、数据加工模块、数据存储模块、接口调用模块和用户管理模块。系统数据库设计包含数据库概念结构设计和数据库物理结构设计。(4)基于详细设计,采用MVC模式对系统进行了开发。前端采用JQuery、Bootstrap等框架实现页面展示,BeetlSQL框架实现系统的增删改查,JavaScript实现页面交互,Apache Shiro安全框架保证系统的安全登录和权限管理,完成系统的功能模块开发。其中采用NEO4J存储RDF数据,网络爬虫为数据的爬取工具。(5)基于软件测试的方法,对开发的系统进行了测试。对系统进行用户界面和功能模块测试,测试结果表明系统界面简洁,功能满足要求。
【图文】:

实体信息,数据分析,实体,摘要信息


半结构化信息主要包括百科实体的属性信息(主要是谓语信息盒infobox),非结构化信息主要包括介绍实体摘要信息,实体描述文本等。对于百科页面信息抽取内容分析如下:对于结构化数据,抽取实体名称、实体属性信息,对于非结构化数据,主要抽取实体摘要信息及实体描述性文本信息。如图 4.3 所示。

词条,页面,百度


图 5.1 词条导入页面5.2.2 数据爬取数据的爬取主要是根据词条训练形成的词条,通过爬虫对百度百科数据进行爬取。 本采集系统的开发主要是基于 SpringMVC 框架实现的,用户通过浏览器登录系统后,发送采集请求,前端控制器对请求进行拦截,,调用映射处理器查找控制器,分发给采集系统控制层。采集系统控制层调用相应的函数,进行网络爬取,返回数据给系统。系统能够对百度百科页面进行有效爬取,并能实时监控任务状态。系统新增词条后,需要对新增的词条进行搜索、抓取信息。抓取成功后,系统依照相应的爬取规则,对百度百科实体内容进行解析,形成如图 5.2 所示的词条解析页面。
【学位授予单位】:中南民族大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP274.2

【参考文献】

相关期刊论文 前10条

1 曹倩;赵一鸣;;知识图谱的技术实现流程及相关应用[J];情报理论与实践;2015年12期

2 郑志蕴;刘博;李伦;王振飞;;基于关键词的RDF数据图查询模型研究[J];计算机科学;2015年07期

3 康杰华;罗章璇;;基于图形数据库Neo4j的RDF数据存储研究[J];信息技术;2015年06期

4 杜亚军;吴越;;微博知识图谱构建方法研究[J];西华大学学报(自然科学版);2015年01期

5 宦臣;;Java Web开发中MVC模式的研究[J];时代教育;2012年21期

6 薛峰;梁锋;徐书勋;王彪任;;基于Spring MVC框架的Web研究与应用[J];合肥工业大学学报(自然科学版);2012年03期

7 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

8 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期

9 陈悦;刘则渊;陈劲;侯剑华;;科学知识图谱的发展历程[J];科学学研究;2008年03期

10 贺智平;徐学洲;李爱玲;;一种基于信息熵的Web页面主题信息抽取方法[J];计算机工程与应用;2007年04期

相关硕士学位论文 前2条

1 李红亮;基于规则的百科人物属性抽取算法的研究[D];西南交通大学;2013年

2 吉向文;标签树模板在网页关键信息抽取及话题识别中的应用[D];复旦大学;2009年



本文编号:2695307

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2695307.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户123e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com