基于带权三元闭包的知识图谱的构建方法研究
发布时间:2021-01-07 12:30
[目的/意义]随着时代的发展,基于关键字匹配的传统搜索方式已经不能满足人们的需求,而知识图谱正是为了满足人们在海量数据中搜索信息而产生的,目前构建社交平台的知识图谱是一个人们极为需求但研究较少的领域。[方法/过程]爬取新浪微博四个官博取其自2017年8月1日至2018年8月1日所发微博的正文及其他相关数据,并以其39 023条数据为样本。在利用共现方式标注共现次数的基础上,实现新的基于带权三元闭包来构建时政类微博的知识图谱,并改变相关参数与人工标注相较得出其最佳参数,从而生成最佳知识图谱。[结果/结论]运用以带权三元闭包为基础构建时政类微博知识图谱的方法,在一定参数约束下,可以生成符合期望的以亲密程度为关系的知识图谱。
【文章来源】:情报杂志. 2019,38(06)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
仅含实边图例
担?丛诖嬖谝欢ü蚕值拇问?之后数值的增长已经不能线性表示实体之间的亲密程度,故应利用降低线性增长的对数方法重新计算实体间关系值[25],并且研究中对其中底数设置为一个参数进行调整来优化并根据结果取最优值。该参数本文称为“X”,这里取“X”设为自然对数来进行计算,即实体间共现次数将以e为底计算对数,四舍五入取整,同时数值加1,并且规定最小值为2,这是因为实边不应小于推理边,以计算后的值作为实边的关系值,这些值称为初级权重,至此形成了带有初级权重三元闭包,如图3所示:图3含推理边图例并得到一个更新后的带有初级权重三元闭包的表2:表2初级权重表特朗普中国朝鲜平壤奥巴马以色列巴以冲突特朗普-651331中国-51110朝鲜-3110平壤-000奥巴马-10以色列-2巴以冲突-根据前文所述,形成三角形的图是相对稳定的。·071·情报杂志第38卷
榻峁梗?瓿闪宋⒉┦闭??闻知识图谱的构建。3.2结果与分析为分析结果,现根据所抽取的实体,依据微博所带的话题分类模式与百科知识,依照人工标注实体之间的关系,并将其关系的亲密程度即联系的紧密程度标注为“上”“中”“下”3个等级,并以此来作为评价标准。其中权重的评价以以下标准为主:0.4<Wij<10.2<Wij≤0.40<Wij≤0.{2上中下基于该标准,可以得出带权三元闭包与人工标注相比较的准确率,并改变前文所述的“X”值,得出相对最优的准确率,由图5表示准确率的变化图:图5准确率图由图5可知,“X”为3时为其最优值,同时此处给出与前文3.2小节“带权三元闭包”中表3相同类型的表5,即取最优值“3”时的权重表,从中也容易得出基于此最优值所得出的知识图谱更加合理。表5最优值权重表特朗普中国朝鲜平壤奥巴马以色列巴以冲突特朗普-0.530.530.040.210.090.02中国-0.430.040.060.060朝鲜-0.130.060.060平壤-000奥巴马-0.060以色列-0.04巴以冲突-可见,基于带权三元闭包原理表示微博中实体亲密程度以表示关系并基于此构建知识图谱是较为可靠的,在合理数值的约束下与人工标注相比较准确率达67.28%。4结论与展望本文由特定领域知识图谱构建的角度出发,提出了基于带权三元闭包构建微博时政新闻知识图谱的方法,并探究了这一方法的合理性与可靠性。结果表明该方法在合理数值的约束下是一个较为可靠的方法。同时该方法扩展性极好,该方法构建的知识图谱有利于利用社会网络分析的方法展开相关研究,限于篇幅,后续研究将对此进行讨论。试验研?
【参考文献】:
期刊论文
[1]“慕课”时代C语言知识图谱的构建[J]. 贾丙静,葛华,李德胜. 绵阳师范学院学报. 2018(11)
[2]我国网络传播研究的知识图谱分析[J]. 赵雪芹,王少春,刘雅宁,黎宁. 情报探索. 2018(09)
[3]知识图谱精化研究综述[J]. 谢刚. 电子技术应用. 2018(09)
[4]基于jieba分词搜索与SSM框架的电子商城购物系统[J]. 邢彪,根绒切机多吉. 信息与电脑(理论版). 2018(07)
[5]知识图谱发展与构建的研究进展[J]. 朱木易洁,鲍秉坤,徐常胜. 南京信息工程大学学报(自然科学版). 2017(06)
[6]“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J]. 冯新翎,何胜,熊太纯,武群辉,柳益君. 情报杂志. 2017(01)
[7]借助八爪鱼采集器实现过刊网刊元数据的自动提取[J]. 崔玉洁,廖坤. 编辑学报. 2016(05)
[8]基于三元闭包的节点相似性链路预测算法[J]. 高杨,张燕平,钱付兰,赵姝. 计算机科学与探索. 2017(05)
[9]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳. 计算机应用. 2016(04)
[10]双语影视知识图谱的构建研究[J]. 王巍巍,王志刚,潘亮铭,刘阳,张江涛. 北京大学学报(自然科学版). 2016(01)
博士论文
[1]社会网络建模分析及挖掘算法研究[D]. 吴震.浙江大学 2017
本文编号:2962560
【文章来源】:情报杂志. 2019,38(06)北大核心CSSCI
【文章页数】:6 页
【部分图文】:
仅含实边图例
担?丛诖嬖谝欢ü蚕值拇问?之后数值的增长已经不能线性表示实体之间的亲密程度,故应利用降低线性增长的对数方法重新计算实体间关系值[25],并且研究中对其中底数设置为一个参数进行调整来优化并根据结果取最优值。该参数本文称为“X”,这里取“X”设为自然对数来进行计算,即实体间共现次数将以e为底计算对数,四舍五入取整,同时数值加1,并且规定最小值为2,这是因为实边不应小于推理边,以计算后的值作为实边的关系值,这些值称为初级权重,至此形成了带有初级权重三元闭包,如图3所示:图3含推理边图例并得到一个更新后的带有初级权重三元闭包的表2:表2初级权重表特朗普中国朝鲜平壤奥巴马以色列巴以冲突特朗普-651331中国-51110朝鲜-3110平壤-000奥巴马-10以色列-2巴以冲突-根据前文所述,形成三角形的图是相对稳定的。·071·情报杂志第38卷
榻峁梗?瓿闪宋⒉┦闭??闻知识图谱的构建。3.2结果与分析为分析结果,现根据所抽取的实体,依据微博所带的话题分类模式与百科知识,依照人工标注实体之间的关系,并将其关系的亲密程度即联系的紧密程度标注为“上”“中”“下”3个等级,并以此来作为评价标准。其中权重的评价以以下标准为主:0.4<Wij<10.2<Wij≤0.40<Wij≤0.{2上中下基于该标准,可以得出带权三元闭包与人工标注相比较的准确率,并改变前文所述的“X”值,得出相对最优的准确率,由图5表示准确率的变化图:图5准确率图由图5可知,“X”为3时为其最优值,同时此处给出与前文3.2小节“带权三元闭包”中表3相同类型的表5,即取最优值“3”时的权重表,从中也容易得出基于此最优值所得出的知识图谱更加合理。表5最优值权重表特朗普中国朝鲜平壤奥巴马以色列巴以冲突特朗普-0.530.530.040.210.090.02中国-0.430.040.060.060朝鲜-0.130.060.060平壤-000奥巴马-0.060以色列-0.04巴以冲突-可见,基于带权三元闭包原理表示微博中实体亲密程度以表示关系并基于此构建知识图谱是较为可靠的,在合理数值的约束下与人工标注相比较准确率达67.28%。4结论与展望本文由特定领域知识图谱构建的角度出发,提出了基于带权三元闭包构建微博时政新闻知识图谱的方法,并探究了这一方法的合理性与可靠性。结果表明该方法在合理数值的约束下是一个较为可靠的方法。同时该方法扩展性极好,该方法构建的知识图谱有利于利用社会网络分析的方法展开相关研究,限于篇幅,后续研究将对此进行讨论。试验研?
【参考文献】:
期刊论文
[1]“慕课”时代C语言知识图谱的构建[J]. 贾丙静,葛华,李德胜. 绵阳师范学院学报. 2018(11)
[2]我国网络传播研究的知识图谱分析[J]. 赵雪芹,王少春,刘雅宁,黎宁. 情报探索. 2018(09)
[3]知识图谱精化研究综述[J]. 谢刚. 电子技术应用. 2018(09)
[4]基于jieba分词搜索与SSM框架的电子商城购物系统[J]. 邢彪,根绒切机多吉. 信息与电脑(理论版). 2018(07)
[5]知识图谱发展与构建的研究进展[J]. 朱木易洁,鲍秉坤,徐常胜. 南京信息工程大学学报(自然科学版). 2017(06)
[6]“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J]. 冯新翎,何胜,熊太纯,武群辉,柳益君. 情报杂志. 2017(01)
[7]借助八爪鱼采集器实现过刊网刊元数据的自动提取[J]. 崔玉洁,廖坤. 编辑学报. 2016(05)
[8]基于三元闭包的节点相似性链路预测算法[J]. 高杨,张燕平,钱付兰,赵姝. 计算机科学与探索. 2017(05)
[9]自动化构建的中文知识图谱系统[J]. 鄂世嘉,林培裕,向阳. 计算机应用. 2016(04)
[10]双语影视知识图谱的构建研究[J]. 王巍巍,王志刚,潘亮铭,刘阳,张江涛. 北京大学学报(自然科学版). 2016(01)
博士论文
[1]社会网络建模分析及挖掘算法研究[D]. 吴震.浙江大学 2017
本文编号:2962560
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2962560.html