面向中文知识图谱本体构建系统的设计与实现
发布时间:2021-09-11 12:36
近年来,信息抽取、知识图谱和知识库的构建等研究成为热点,本体中实体识别和实体上下位关系抽取是这些研究的基础。但是目前针对特定知识图谱本体构建并不多,本系统针对植物领域知识图谱的本体构建做了一些工作。本系统主要采用一种自下而上的构建方式,由最下层的领域实体获取出发,通过推荐算法来挖掘上位词,避免了传统构建方法中的关系抽取及关系判断这一难点,通过自动化方式获取实体上位词,再获取上位词的上位词,即将上位词层次化,最后通过信息抽取挖掘出实体的各个属性,最后构建出本体。首先,领域实体的获取,本系统通过挖掘互联网开放库数据,如搜狗,百度,腾讯等互联网公司所收集整理的各种领域词条,以此类词条为基础来丰富领域实体库。爬取百科数据,根据百科类目和开放分类获取前面收集到的实体的上位词,并清洗整理,另外通过协同过渡推荐算法获取上位词的方式作为补充,完成上位词获取。通过FP-Growth算法寻找频繁项的方法对前面所获取的上位词进行层次化,并进行循环递推,找出上位词的上位词,直至结束。对百科描述文本,进行信息抽取,挖掘出实体的相关属性,完成整个本体的构建过程,并以图谱的形式展示出来。本文通过系统性的分析,概括出...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
互联网词库分类
确定领域范围,采用自下而上的构建方式,首先进行领域实体获取,通过爬取互联网词库可以迅速的丰富基础实体库,由于互联网词库相对来说收集比较完善,对后面的实现也很有利。3.3.2 实体数据获取模块设计对于百科数据特点,它的一个词对应着一个页面,本系统暂且把词条看作是实体,采用爬虫技术,从网页中爬取相关信息,包括实体的标题项,实体的描述文本,实体的基本信息,实体的开放分类,描述文本的内链接五个主要部分,把这些信息抽取出来并进行结构化,用来表示实体,为后续的构建提供必要的数据。本 系 统 采 用 一 种 五 元 组 的 方 式 来 表 示 这 些 信 息 :E(a)={T(a),A(a),I(a),H(a),L(a)},其中 a 代表实体,T(a)代表实体的标题,A(a)代表实体的描述文本,I(a)表示实体的基本信息,H(a)表示实体的开放分类数据,L(a)代表实体的内链接集合。
a 而认为他们都是相似的,,具有上位词 c们可以推荐给实体 C。经过推荐后,我们再则认为推荐合理。,发现兴趣相似用户,即相似实体,通常情计算两个实体之间的相似性,设 N(u)为实 v 拥有的上位词集合,那么 u 和 v 的相似性 | ( ) ∩ ( )|| ( ) ∪ ( )| | ( ) ∩ ( )|√| ( )| | ( )| 4 个实体: A、B、C、D;共有 5 个上位词系(实体拥有上位词)如下图所 4-3 所示:
【参考文献】:
期刊论文
[1]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏. 自然科学进展. 2009(01)
本文编号:3393013
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
互联网词库分类
确定领域范围,采用自下而上的构建方式,首先进行领域实体获取,通过爬取互联网词库可以迅速的丰富基础实体库,由于互联网词库相对来说收集比较完善,对后面的实现也很有利。3.3.2 实体数据获取模块设计对于百科数据特点,它的一个词对应着一个页面,本系统暂且把词条看作是实体,采用爬虫技术,从网页中爬取相关信息,包括实体的标题项,实体的描述文本,实体的基本信息,实体的开放分类,描述文本的内链接五个主要部分,把这些信息抽取出来并进行结构化,用来表示实体,为后续的构建提供必要的数据。本 系 统 采 用 一 种 五 元 组 的 方 式 来 表 示 这 些 信 息 :E(a)={T(a),A(a),I(a),H(a),L(a)},其中 a 代表实体,T(a)代表实体的标题,A(a)代表实体的描述文本,I(a)表示实体的基本信息,H(a)表示实体的开放分类数据,L(a)代表实体的内链接集合。
a 而认为他们都是相似的,,具有上位词 c们可以推荐给实体 C。经过推荐后,我们再则认为推荐合理。,发现兴趣相似用户,即相似实体,通常情计算两个实体之间的相似性,设 N(u)为实 v 拥有的上位词集合,那么 u 和 v 的相似性 | ( ) ∩ ( )|| ( ) ∪ ( )| | ( ) ∩ ( )|√| ( )| | ( )| 4 个实体: A、B、C、D;共有 5 个上位词系(实体拥有上位词)如下图所 4-3 所示:
【参考文献】:
期刊论文
[1]个性化推荐系统的研究进展[J]. 刘建国,周涛,汪秉宏. 自然科学进展. 2009(01)
本文编号:3393013
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3393013.html
最近更新
教材专著