内蒙古自治区旅游领域知识库构建及应用研究
发布时间:2021-01-04 02:53
互联网技术不断推陈出新,信息同时也在成指数级爆炸增长,搜索引擎逐渐代替传统书本,成为人们快速获取知识的重要来源。对海量的互联网数据进行规范化,并挖掘利用其有效的信息,是人工智能领域发展的重要研究课题。自2012年谷歌提出了知识图谱的概念,并成功应用在搜索引擎中,知识图谱即知识库成为一项建立并规范一定规模知识资源的技术。之后,业界将关注焦点聚集在如何研究构建具体领域的垂直知识图谱,其中,进展较快的项目多为金融领域,旅游领域涉及较少,而学术界和工业界也没有公开的内蒙古旅游领域知识图谱的成果。本文旨在整合内蒙古自治区旅游领域的景点信息,建立多源数据的领域本体知识库。首先,设计爬虫类工具,从百科类和旅游类网站获取关于内蒙古自治区A级景点的信息。经过知识清洗等预处理工作后,形成<实体,属性,属性值>和<实体1,关系,实体2>形式的三元组知识。其次,将获取的三元组通过Protégé本体编辑工具,自顶向下地规范模式层的概念,降低与数据层对接的成本。最后,使用图数据库Neo4j,存储模式层的本体和数据层的三元组知识,完成知识库的构建。现有搜索引擎对于用户的提问,返回的结果多为基...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
数据获取流程
图 3.2 通用爬虫流程Figure 3.2 the basic work of SpiderScrapy,是一种高效的 Python 爬虫框架,使用事件驱动网络引擎框架 Twisted 作基础框架,实现了快速、高层次的 Web 数据爬取。Scrapy 的用途广泛,除了作为通用网络爬虫工具,还可以获取 API 所返回的数据,也用于数据挖掘、检测和自动化测试[59]。Scrapy 框架包含较多组件,引擎、爬虫、调度器、下载器、管道项目和中间件,对应框架中名称 Scrapy Engine、Spider、Scheduler、Downloader 和 Item Pipeline,中间件包括 Spider Middlewares 和 Downloader Middlewares。这些组件协同高效地完成爬虫工作。整个框架的核心 Engine,控制数据流在各组件间流转,处理了大部分的操作;Scheduler 则接受引擎发送的 Request 对象,并按照一定方式进行整理后加入队列,在引擎需要时传回请求对象;Downloader 负责下载引擎发送
景点实体和城市实体两类名称,一般情况不易变更,并且是景点知识库的重要组成部分。因此本文主要获取景点名称和城市名称这两种实体,形成结构化词条,便于属性的爬取。考虑到一个命名实体的指称项可能对应多个实体概念,因此需要尽可能获得多的不同叫法实体名称。景点实体的来源分为两部分,一份为官方旅游发展委员会公开的 A 级旅游景区名单[62],共 362 个 A 级景点:包含景点名称、景点等级和评级时间,一份是已收集到的内蒙古自治区景点名,共 1006 个景点。宪法第三十条规定了的三级行政区域划分[63],地名实体按此标准分为,第一级:全国为最大行政区划,下分为省、自治区或直辖市;第二级:省、自治区下辖市、县、自治县、自治州;第三级:直辖市和较大的市区下辖区、县,自治州分为县、自治县、市,县、自治县分为乡、民族乡、镇。通过行政区划网[64],获取到内蒙古自治区获取各个级别的名称和行政区划代码,共 12 个二级及103 个三级区划单位的地名,得到地名实体。如图 3.3 为内蒙古自治区的三级行政区划。
【参考文献】:
期刊论文
[1]基于OWL+SKOS的期刊本体构建与应用[J]. 罗婷婷,李娇,鲜国建,赵瑞雪,寇远涛. 数字图书馆论坛. 2018(12)
[2]Scrapy分布式爬虫搜索引擎[J]. 刘思林. 电脑知识与技术. 2018(34)
[3]融合知识表示的知识库问答系统[J]. 安波,韩先培,孙乐. 中国科学:信息科学. 2018(11)
[4]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[5]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[6]特定领域概念属性关系抽取方法研究[J]. 王旭阳,姜喜秋. 吉林大学学报(信息科学版). 2017(04)
[7]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕. 软件. 2017(07)
[8]垂直知识图谱的构建与应用研究[J]. 阮彤,王梦婕,王昊奋,胡芳槐. 知识管理论坛. 2016(03)
[9]本体研究综述[J]. 王向前,张宝隆,李慧宗. 情报杂志. 2016(06)
[10]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]基于本体的中国行政区划地名识别与抽取研究[D]. 杜萍.兰州大学 2011
[3]信息抽取中关键技术的研究[D]. 张素香.北京邮电大学 2007
[4]基于本体的不确定性知识管理研究[D]. 程勇.中国科学院研究生院(计算技术研究所) 2005
硕士论文
[1]基于地理本体的吉林地域知识图谱的构建[D]. 刘鎏.北京交通大学 2017
[2]古建筑领域本体的构建及应用研究[D]. 徐月洁.广西师范大学 2017
本文编号:2956005
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
数据获取流程
图 3.2 通用爬虫流程Figure 3.2 the basic work of SpiderScrapy,是一种高效的 Python 爬虫框架,使用事件驱动网络引擎框架 Twisted 作基础框架,实现了快速、高层次的 Web 数据爬取。Scrapy 的用途广泛,除了作为通用网络爬虫工具,还可以获取 API 所返回的数据,也用于数据挖掘、检测和自动化测试[59]。Scrapy 框架包含较多组件,引擎、爬虫、调度器、下载器、管道项目和中间件,对应框架中名称 Scrapy Engine、Spider、Scheduler、Downloader 和 Item Pipeline,中间件包括 Spider Middlewares 和 Downloader Middlewares。这些组件协同高效地完成爬虫工作。整个框架的核心 Engine,控制数据流在各组件间流转,处理了大部分的操作;Scheduler 则接受引擎发送的 Request 对象,并按照一定方式进行整理后加入队列,在引擎需要时传回请求对象;Downloader 负责下载引擎发送
景点实体和城市实体两类名称,一般情况不易变更,并且是景点知识库的重要组成部分。因此本文主要获取景点名称和城市名称这两种实体,形成结构化词条,便于属性的爬取。考虑到一个命名实体的指称项可能对应多个实体概念,因此需要尽可能获得多的不同叫法实体名称。景点实体的来源分为两部分,一份为官方旅游发展委员会公开的 A 级旅游景区名单[62],共 362 个 A 级景点:包含景点名称、景点等级和评级时间,一份是已收集到的内蒙古自治区景点名,共 1006 个景点。宪法第三十条规定了的三级行政区域划分[63],地名实体按此标准分为,第一级:全国为最大行政区划,下分为省、自治区或直辖市;第二级:省、自治区下辖市、县、自治县、自治州;第三级:直辖市和较大的市区下辖区、县,自治州分为县、自治县、市,县、自治县分为乡、民族乡、镇。通过行政区划网[64],获取到内蒙古自治区获取各个级别的名称和行政区划代码,共 12 个二级及103 个三级区划单位的地名,得到地名实体。如图 3.3 为内蒙古自治区的三级行政区划。
【参考文献】:
期刊论文
[1]基于OWL+SKOS的期刊本体构建与应用[J]. 罗婷婷,李娇,鲜国建,赵瑞雪,寇远涛. 数字图书馆论坛. 2018(12)
[2]Scrapy分布式爬虫搜索引擎[J]. 刘思林. 电脑知识与技术. 2018(34)
[3]融合知识表示的知识库问答系统[J]. 安波,韩先培,孙乐. 中国科学:信息科学. 2018(11)
[4]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[5]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[6]特定领域概念属性关系抽取方法研究[J]. 王旭阳,姜喜秋. 吉林大学学报(信息科学版). 2017(04)
[7]基于Scrapy的深层网络爬虫研究[J]. 刘宇,郑成焕. 软件. 2017(07)
[8]垂直知识图谱的构建与应用研究[J]. 阮彤,王梦婕,王昊奋,胡芳槐. 知识管理论坛. 2016(03)
[9]本体研究综述[J]. 王向前,张宝隆,李慧宗. 情报杂志. 2016(06)
[10]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]基于本体的中国行政区划地名识别与抽取研究[D]. 杜萍.兰州大学 2011
[3]信息抽取中关键技术的研究[D]. 张素香.北京邮电大学 2007
[4]基于本体的不确定性知识管理研究[D]. 程勇.中国科学院研究生院(计算技术研究所) 2005
硕士论文
[1]基于地理本体的吉林地域知识图谱的构建[D]. 刘鎏.北京交通大学 2017
[2]古建筑领域本体的构建及应用研究[D]. 徐月洁.广西师范大学 2017
本文编号:2956005
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2956005.html
最近更新
教材专著