面向旅游的蒙汉双语知识图谱的研究与构建
发布时间:2021-04-12 20:04
在交通和互联网的高速发展的今天,旅游业成为当今国民收入的重要部分,“旅游+互联网”模式应运而生。旅游资源的信息变得越来越庞大,越来越杂,虽然人们可以很容易在网上搜索到一些资源,但是也存在越来越多的无用信息,它们极大地干扰了民众对有用信息的检索,所以,如何利用好复杂庞大的信息,并从中有效地提取到有用信息变得非常紧迫。针对以上问题,本文构建了面向旅游的蒙汉双语知识图谱。构建过程主要包括以下四部分:首先,构建旅游领域语义框架,根据语义框架对信息进行抽取和处理。本文的数据来源主要有互动百科,百度百科,搜狗百科,以及携程等各个旅游网站。其次,进行数据预处理,并建立语料库。利用开源工具NeuralCoref,把文本中的指代词替换成实体名称,以便于更好的分词和标注。分词操作利用NLPIR工具完成,标注方式采用BMEO,在这个阶段完成语料库的建立。然后,对于标注好的文本,使用CRFs工具包完成命名实体识别,并且采用卷积神经网络来完成关系抽取。根据抽取的实体及属性关系,形成构建知识图谱的三元组。把其中抽取到的属性值进行融合,选择最优的属性值。通过查询专业书籍和利用专业蒙古文处理平台对三元组进行蒙文处理。...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
共指消解Figure2.1Referentialdigestion
面向旅游的蒙汉双语知识图谱的研究与构建OWL(Web Ontology Language)是语义网技术栈的核心之一,其相当于 RDF 的衣服被用于描述 RDF 数据;OWL 可以提供快速、灵活的数据建模能力和高效的自动推理功3],OWL 通常采用编码方式是 RDF/XML,以 RDF 为序列化语法;OWL 形式化的核心DF 的三元组,把 RDF 的本体间关系、个体属性间的关系等存储到 OWL 中,也就是的三,即实体和实体之间的关系。通常 OWL 本体基于个体、属性和类三个部分构成,其中个体和实例相通,属性和扩接点相通,类对应和类连接通信[34]。其有如下优点: schema 定义清晰,类与类之间的丰富,可以实现一些简单的推理,同时可以为每一个实体定义一个类型,为每一个类型定义一些属性,依据 schema 的 type 和属性往里面添加数据,本体 schema 可以看作是数表的列名。本文采用 OWLDL 作为描述语言。如图 2.2 所示。
内蒙古大学硕士学位论文3.2.1 语料获取对于语料的收集,本文通过编写网络爬虫,分别对各旅游网站以及百科类网站进行爬取。百科类网站中拥有海量数据,这些数据主要以半结构化形式存储。因此,如果需要抽取百科类网站的数据资源,就可以根据自己的需求来构建符合特定规则的数据包装器,通过它来对百科类网站上的半结构数据资源进行关系抽取,即抽取其中的属性-值对。例如,图 3.3 展示了百度百科 成吉思汗陵μ词条的页面信息。
【参考文献】:
期刊论文
[1]宠物知识图谱的半自动化构建方法[J]. 袁琦,刘渊,谢振平,陆菁. 计算机应用研究. 2020(01)
[2]知识图谱及其在学术信息服务领域的应用[J]. 汤庸,陈国华,贺超波,彭博. 华南师范大学学报(自然科学版). 2018(05)
[3]知识图谱技术研究综述[J]. 欧艳鹏. 电子世界. 2018(13)
[4]中医古籍文献数据库的语义检索系统构建研究[J]. 李明,周强,罗晓兰,朱邦贤. 时珍国医国药. 2017(10)
[5]基于多数据源的知识图谱构建方法研究[J]. 吴运兵,阴爱英,林开标,余小燕,赖国华. 福州大学学报(自然科学版). 2017(03)
[6]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
[9]共指消解研究方法综述[J]. 宋洋,王厚峰. 中文信息学报. 2015(01)
[10]面向微博文本的命名实体识别[J]. 姜仁会,王挺,唐晋韬. 计算机与数字工程. 2014(04)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]基于多种数据源的中文知识图谱构建方法研究[D]. 胡芳槐.华东理工大学 2015
硕士论文
[1]基于知识图谱的领域知识库管理系统的设计与实现[D]. 化立志.北京邮电大学 2018
[2]基于大数据的企业图谱的研究与应用[D]. 袁安云.华南理工大学 2017
[3]基于深度卷积神经网络的实体关系抽取[D]. 王林玉.太原理工大学 2017
[4]特定领域实体属性关系抽取方法研究[D]. 尚琪.昆明理工大学 2017
[5]命名实体消歧的研究与实现[D]. 杨晓.北京邮电大学 2017
[6]基于领域本体的蒙古文语义检索研究[D]. 石宇.内蒙古大学 2016
[7]旅游领域知识图谱构建方法的研究和实现[D]. 徐溥.北京理工大学 2016
[8]基于词向量和深度卷积神经网络的领域实体关系抽取[D]. 邵发.昆明理工大学 2016
[9]基于领域本体的个性化旅游推荐系统的研究与实现[D]. 张猛.重庆大学 2015
[10]领域实体属性关系抽取方法研究[D]. 刘丽佳.昆明理工大学 2015
本文编号:3133900
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
共指消解Figure2.1Referentialdigestion
面向旅游的蒙汉双语知识图谱的研究与构建OWL(Web Ontology Language)是语义网技术栈的核心之一,其相当于 RDF 的衣服被用于描述 RDF 数据;OWL 可以提供快速、灵活的数据建模能力和高效的自动推理功3],OWL 通常采用编码方式是 RDF/XML,以 RDF 为序列化语法;OWL 形式化的核心DF 的三元组,把 RDF 的本体间关系、个体属性间的关系等存储到 OWL 中,也就是的三,即实体和实体之间的关系。通常 OWL 本体基于个体、属性和类三个部分构成,其中个体和实例相通,属性和扩接点相通,类对应和类连接通信[34]。其有如下优点: schema 定义清晰,类与类之间的丰富,可以实现一些简单的推理,同时可以为每一个实体定义一个类型,为每一个类型定义一些属性,依据 schema 的 type 和属性往里面添加数据,本体 schema 可以看作是数表的列名。本文采用 OWLDL 作为描述语言。如图 2.2 所示。
内蒙古大学硕士学位论文3.2.1 语料获取对于语料的收集,本文通过编写网络爬虫,分别对各旅游网站以及百科类网站进行爬取。百科类网站中拥有海量数据,这些数据主要以半结构化形式存储。因此,如果需要抽取百科类网站的数据资源,就可以根据自己的需求来构建符合特定规则的数据包装器,通过它来对百科类网站上的半结构数据资源进行关系抽取,即抽取其中的属性-值对。例如,图 3.3 展示了百度百科 成吉思汗陵μ词条的页面信息。
【参考文献】:
期刊论文
[1]宠物知识图谱的半自动化构建方法[J]. 袁琦,刘渊,谢振平,陆菁. 计算机应用研究. 2020(01)
[2]知识图谱及其在学术信息服务领域的应用[J]. 汤庸,陈国华,贺超波,彭博. 华南师范大学学报(自然科学版). 2018(05)
[3]知识图谱技术研究综述[J]. 欧艳鹏. 电子世界. 2018(13)
[4]中医古籍文献数据库的语义检索系统构建研究[J]. 李明,周强,罗晓兰,朱邦贤. 时珍国医国药. 2017(10)
[5]基于多数据源的知识图谱构建方法研究[J]. 吴运兵,阴爱英,林开标,余小燕,赖国华. 福州大学学报(自然科学版). 2017(03)
[6]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
[9]共指消解研究方法综述[J]. 宋洋,王厚峰. 中文信息学报. 2015(01)
[10]面向微博文本的命名实体识别[J]. 姜仁会,王挺,唐晋韬. 计算机与数字工程. 2014(04)
博士论文
[1]基于领域本体的蒙医药学知识库构建与知识发现研究[D]. 鲍玉来.吉林大学 2018
[2]基于多种数据源的中文知识图谱构建方法研究[D]. 胡芳槐.华东理工大学 2015
硕士论文
[1]基于知识图谱的领域知识库管理系统的设计与实现[D]. 化立志.北京邮电大学 2018
[2]基于大数据的企业图谱的研究与应用[D]. 袁安云.华南理工大学 2017
[3]基于深度卷积神经网络的实体关系抽取[D]. 王林玉.太原理工大学 2017
[4]特定领域实体属性关系抽取方法研究[D]. 尚琪.昆明理工大学 2017
[5]命名实体消歧的研究与实现[D]. 杨晓.北京邮电大学 2017
[6]基于领域本体的蒙古文语义检索研究[D]. 石宇.内蒙古大学 2016
[7]旅游领域知识图谱构建方法的研究和实现[D]. 徐溥.北京理工大学 2016
[8]基于词向量和深度卷积神经网络的领域实体关系抽取[D]. 邵发.昆明理工大学 2016
[9]基于领域本体的个性化旅游推荐系统的研究与实现[D]. 张猛.重庆大学 2015
[10]领域实体属性关系抽取方法研究[D]. 刘丽佳.昆明理工大学 2015
本文编号:3133900
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3133900.html
最近更新
教材专著