基于知识图谱的社交网络话题演化及预测
发布时间:2021-07-11 05:52
互联网已经成为人们获取信息的一个主要渠道,社交网络中的话题可以在互联网上瞬间传播,由于这些话题涉及一系列的概念、要素等特征,并且话题之间也具有复杂的联系,需要构建高效合理的话题模型,以实现话题的建模、存储和管理,并为分析与预警应用提供支撑。知识图谱是具有语义处理能力的知识库,在知识提取、知识融合以及知识推理领域备受关注。首先以微软概念图谱为研究对象,将其看作复杂网络系统,采用相关理论进行分析。复杂网络理论是对复杂系统的一种抽象描述和分析工具,可以探明微软概念图谱的固有特征,深刻理解其本质。复杂网络理论侧重于研究复杂系统各因子的相互作用或关系,文中主要用以分析微软概念图谱最大连通子网的节点度分布、网络平均最短距离、聚类系数和度相关性等复杂网络特性。随后将概念图谱引入短文本二分类问题,实现了一种基于概念图谱的短文本语义扩展表示方法,首先,计算文本特征词与概念图谱中各概念的关联度,选取关联度高的概念构成当前文本的概念词典。然后,将概念词典加入特征词集合得到短文本的语义扩展表示。对来自Twitter的短文本进行了扩展前与扩展后的分类实验,结果显示,概念化语义扩展表示可以提高短文本的分类效果,以...
【文章来源】:北京物资学院北京市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
概念图谱最大连通子网度分布
第 2 章 概念图谱分析表 2-7 部分度值与聚类系数度值 聚类系数 节点 度值 364 343 3.22E-5 assume 2 204 130 6.04E-5 mercedes benz cars 2 202 331 7.96E-5 audi cars 2 174 283 8.20E-5 4d sedan 2 159 164 1.34E-4 brown bread product 2 … … … …
图 2-7 4 个端点的度值分布图 2-8 4 个阶段的度值分布图 2-7 和图 2-8 中可看出,如果度值超过 1 000 算作高度值节点,则所有的高度节点的聚类系数均在极小范围(0,0 16 )内,若度值超过 100 即算作高度节点,则高度节点的聚类系数大多处在范围(0,0 3 )内。而在端点处,基本 99.2%的节点其度值在 10 以内。由此可知,低度值节点的聚类系数大,而高度值节点的聚类系数普遍偏小。(4) 度相关性反应了节点与邻接节点之间的关系,由节点的所有邻居节点的平均度值与节点自身度值的函数关系进行度量:
【参考文献】:
期刊论文
[1]基于复杂网络视角的高速铁路网络特性分析[J]. 叶堃晖,袁欣. 资源开发与市场. 2018(01)
[2]结合可视图的多状态交通流时间序列特性分析[J]. 邢雪,于德新,田秀娟,王世广. 物理学报. 2017(23)
[3]城市群城际铁路站点空间网络研究[J]. 邓良凯,石亚灵,张弘,王亚风. 城市发展研究. 2017(08)
[4]我国网络舆情研究现状述评[J]. 刘亚男. 情报杂志. 2017(05)
[5]Spark平台下的短文本特征扩展与分类研究[J]. 王雯,赵衎衎,李翠平,陈红,孙辉. 计算机科学与探索. 2017(05)
[6]面向网络大数据的知识融合方法综述[J]. 林海伦,王元卓,贾岩涛,张鹏,王伟平. 计算机学报. 2017(01)
[7]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[8]近十年国内知识图谱研究脉络及主题分析[J]. 李明鑫,王松. 图书情报知识. 2016(04)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[10]基于转发关系的微博话题演化算法[J]. 徐伟,赵斌,吉根林. 计算机科学. 2016(02)
硕士论文
[1]公安网络舆情分析系统的研究[D]. 王磊.北京交通大学 2008
本文编号:3277472
【文章来源】:北京物资学院北京市
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
概念图谱最大连通子网度分布
第 2 章 概念图谱分析表 2-7 部分度值与聚类系数度值 聚类系数 节点 度值 364 343 3.22E-5 assume 2 204 130 6.04E-5 mercedes benz cars 2 202 331 7.96E-5 audi cars 2 174 283 8.20E-5 4d sedan 2 159 164 1.34E-4 brown bread product 2 … … … …
图 2-7 4 个端点的度值分布图 2-8 4 个阶段的度值分布图 2-7 和图 2-8 中可看出,如果度值超过 1 000 算作高度值节点,则所有的高度节点的聚类系数均在极小范围(0,0 16 )内,若度值超过 100 即算作高度节点,则高度节点的聚类系数大多处在范围(0,0 3 )内。而在端点处,基本 99.2%的节点其度值在 10 以内。由此可知,低度值节点的聚类系数大,而高度值节点的聚类系数普遍偏小。(4) 度相关性反应了节点与邻接节点之间的关系,由节点的所有邻居节点的平均度值与节点自身度值的函数关系进行度量:
【参考文献】:
期刊论文
[1]基于复杂网络视角的高速铁路网络特性分析[J]. 叶堃晖,袁欣. 资源开发与市场. 2018(01)
[2]结合可视图的多状态交通流时间序列特性分析[J]. 邢雪,于德新,田秀娟,王世广. 物理学报. 2017(23)
[3]城市群城际铁路站点空间网络研究[J]. 邓良凯,石亚灵,张弘,王亚风. 城市发展研究. 2017(08)
[4]我国网络舆情研究现状述评[J]. 刘亚男. 情报杂志. 2017(05)
[5]Spark平台下的短文本特征扩展与分类研究[J]. 王雯,赵衎衎,李翠平,陈红,孙辉. 计算机科学与探索. 2017(05)
[6]面向网络大数据的知识融合方法综述[J]. 林海伦,王元卓,贾岩涛,张鹏,王伟平. 计算机学报. 2017(01)
[7]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[8]近十年国内知识图谱研究脉络及主题分析[J]. 李明鑫,王松. 图书情报知识. 2016(04)
[9]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[10]基于转发关系的微博话题演化算法[J]. 徐伟,赵斌,吉根林. 计算机科学. 2016(02)
硕士论文
[1]公安网络舆情分析系统的研究[D]. 王磊.北京交通大学 2008
本文编号:3277472
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3277472.html