当前位置:主页 > 科技论文 > 自动化论文 >

基于社交网络的知识图谱构建技术研究

发布时间:2020-03-24 06:03
【摘要】:近年来,随着人工智能技术的飞速发展,基于数据挖掘、机器学习、知识工程的知识图谱研究吸引了大量研究者的关注。知识图谱对于人工智能、机器认知智能的发展有着重要的理论价值和现实意义。虽然近年来研究者在知识图谱构建技术领域已经取得了很多优秀的研究成果,但仍有一些问题亟待解决。本文开展了基于社交网络的知识图谱构建技术研究,主要探讨了人物知识图谱构建过程中的实体获取、重名实体消歧、关系补全、关系推理和知识冲突消解等问题。本文研究成果可为智能信息检索、对话系统、智能推荐等智能应用提供借鉴和参考。具体而言,本文取得的主要创新性成果包括:(1)针对传统知识图谱中的人物实体来源比较单一的问题,提出了三种从社交网络中获取人物实体的方法。首先提出了一种基于社交网络拓扑结构特征关联人物实体的方法,该方法根据节点度中心性、聚集系数、本征矢量中心性特征,基于随机森林分类器对两个网络中的社交人物进行关联;然后提出了一种融合社交网络结构特征和用户画像特征的人物实体关联方法,本方法把社交结构特征和画像特征转化为向量并根据向量的余弦相似度来关联社交网络之间的用户;最后提出了一种基于二部图匹配的人物实体关联方法,该方法融合用户画像、用户在线时间分布特征和用户兴趣特征关联社交网络中的人物实体。实验结果表明,提出的方法均优于现有的基线方法。(2)针对知识图谱融合过程中出现的实体重名问题,提出了一种基于马尔科夫逻辑网络的重名实体消歧方法。首先使用知识图谱表示元组中实体之间的链接关系;然后使用马尔科夫逻辑网络推理知识图谱中存在的实体冲突;最后使用张量分解的方法对冲突实体进行实体消歧。实验结果表明,该方法在F1值、准确率和召回率等方面均优于基线方法。其中,在WD1数据集和Wikidata知识图谱融合的实验中,本文提出的方法比DoSeR的F1值高8%;在YA、DB、WD2数据集和Wikidata知识图谱的融合的实验中,提出的方法比DoSeR方法的F1值高7%;在Wikidata知识图谱与WD1数据集融合的实验中,该方法的准确率比DoSeR方法高10%,召回率比DoSeR方法高5%。(3)针对构建知识图谱的过程中出现的关系缺失问题,提出了一种基于实体链接预测的关系补全方法(ELPKG)。该方法首先使用基于路径的方法表示实体之间的关系;然后使用实体之间的嵌入向量表示实体之间的语义关系;接着使用概率软逻辑的方法描述非确定性的知识;最后提出路径和嵌入向量相结合的实体链接预测方法对实体关系进行补全。在真实数据集上的实验结果表明,在关系补全任务中ELPKG方法优于现有的基线方法,其中在YAGO3数据集上ELPKG比基线方法的Hit@1、Hit@10、MRR均值分别高35%、24%、17%。(4)针对人物知识图谱中的人物关系推理问题,提出了一个基于概率软逻辑的实体关系推理方法(KGIPSL)。该方法首先对知识图谱中的实体关系进行统计;然后使用基于条件随机场的方法构建实体之间的马尔科夫逻辑网络;接着使用局部封闭世界假设获得知识图谱中的负样本;然后采用随机游走方法对马尔科夫逻辑网络进行采样;接着用概率软逻辑的方法表示非确定的知识;最后在知识图谱的查询过程中推理知识图谱中实体之间的关系。在真实的知识图谱数据集上的实验表明,KGIPSL方法的准确率均优于基线方法,在YAGO数据集上KGIPSL的平均准确率比基线方法平均高14.9%。(5)针对知识图谱的事实及知识随时间变化过程中出现的知识冲突问题,提出了一种基于时间特征、实体之间的语义嵌入特征和知识图谱的图结构特征的知识冲突消解方法。该方法首先使用不确定时序知识图谱描述知识图谱随时间的变化特征;然后分析了知识图谱中事实在演化过程中的时间冲突,并根据时间冲突特点对时间约束添加约束条件;最后提出基于深度学习的Kcrabdl方法,它利用时间属性、实体之间的语义嵌入特征和知识图谱的图结构特征确保了知识随时间演化过程中确保一致性。在IMDB和YAGO的真实数据集上的大量实验表明,该方法优于基线方法,并通过加入噪声数据验证了Kcrabdl方法具有较好的鲁棒性。
【图文】:

数据集,论文作者,方法,重要特征


图 2.3 DBLP 数据集论文作者合作数量的分布P 数据集里论文作者合作数量的分布,从中关于作者合作者分布的分析是一致的。因此重要特征是合理的。了算法在Aminer和MAG数据集上的ROC以看出,本方法在假正例率为 0.7%的情况下eed-and-Grow、Random Forest 和 NS 方法分对。即使在假正例率为 0.5%的情况下,本文果表明本文提出的方法在 Aminer 数据集上DM 方法高 6%。

数量分布,数据集,噪音,目标图


方法取得了最好的效果。在 MAG-Aminer 数据集上本方法的 AUC 值为 0.91,分别比 NS、DDM 方法高 54%、19%。结果表明本方法在跨网络的节点匹配中效果很好。图 2.6 本文方法在 MAG-Aminer 和 DBLP-mendeley 数据集上与基线方法的 AUC 比较结果接下来通过向数据中添加噪音来验证本方法的鲁棒性(删除或者添加图中的边)。前面的作者合作数量分布实验中得知此分布遵循幂率分布,这也正是 Barabási-Albert(BA)[99]偏好链接模型的显著特征,因此使用 BA 模型向图中添加、删除边,从而给数据集添加噪音数据,实验结果见图 2.7。在实验中分别给目标图和辅助图中添加比率为 p 的噪音,随机地给目标图添加(p/2)×|E|
【学位授予单位】:战略支援部队信息工程大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP18

【相似文献】

相关期刊论文 前10条

1 耿维峰;;社交网络应用于辅助大学英语翻译教学的相关分析[J];传播力研究;2018年28期

2 孙金铭;吴s我,

本文编号:2597911


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2597911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2f9ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com