异构信息网络中基于聚类的社区发现方法研究

发布时间:2021-03-06 09:55
  社区发现是数据挖掘的基础,通过社区发现可以了解节点在网络中的重要程度和不同关联节点,同时可以挖掘网络内部不同的节点信息,引导后续的网络推荐推荐系统以及预测网络的未来走向趋势。现有的社区发现算法的大多适用环境都是同构信息网络,因为同构信息网络节点关系单一,从直观上可以进行描述,方便理解。然而,随着网络的发展,现有的信息网络大多包含有多种类型的节点及链接关系,不同节点之间的链接关系可能代表着不同的语义信息,同一条链接关系也可能拥有不同的表述含义,我们将这种类型的信息网络称之为异构信息网络。异构信息网络对于节点的信息表达更加全面、精确,但是相对于以同构网络结构来进行社区发现将面临更多的困难与挑战。本文在借鉴现有研究成果的基础上,提出了一种适用于现有的异构信息网络的社区发现算法框架HCDClus(Heterogeneous Community Detection Cluster)。算法框架HCDClus主要包含两个部分:融合多条元路径的异构网络相似性度量算法HCBOWSMVA(Heterogeneous Continuous Bag of Words... 

【文章来源】:内蒙古科技大学内蒙古自治区

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

异构信息网络中基于聚类的社区发现方法研究


异质网络结构类型

信息网络,异构


内蒙古科技大学硕士学位论文-3-异构信息网络的异构性主要表现以下几个方面:1、节点类型的多样性,譬如在DBLP数据集中,节点类型就包含有作者,论文,关键字,期刊等类型;2、链接关系的多样性,譬如论文与期刊之间有发表关系,论文和关键字之间存在包含关系等等;3、网络节点的重要性也会有区分,譬如在DBLP数据集中,论文与作者的重要程度应大于其他类型节点[20]。下面来详细介绍异构信息网络中的一些相关定义。定义1异构信息网络:异构信息网络是包含多种节点与关系的信息网络[21],也可以用图G来表示。节点用V来表示,链接关系用E来表示,那么节点的类型集合表示为T,链接关系所属的类型集合表示为R。当且仅当节点类型集合|T|>1或者链接关系类型|R|>1时,这个网络就可以称之为异构信息网络。如果|T|=1和|R|=1则G为同构信息网络。该网络可以用公式表示为:G=V,E,T,R,,,(式1-1)其中,φ表示的是节点间的关系映射,表示的是节点的类型映射,ψ表示的是链接关系的类型映射。显然,含有不同类型节点和不同链接关系类型的异构信息网络会包含有更加丰富的网络结构信息。如果网络中只包含有一种类型的节点,但是有多种不同的链接关系,这种网络类型也称为多关系网络,一般应用于社会网络等等[22]。如果网络中只包含多种类型的节点,同时也有多种不同的链接关系,这种网络类型就称为多模式网络[23]。如图1.2所示的两个网络就是典型的异构信息网络。图1.2(a)中电影推荐系统中包含了用户、电影、导演、演员等的节点类型,图1.2(b)中DBLP数据集也是一种多模式网络,包含了作者、论文、关键字、期刊等节点类型。图1.2异构信息网络

聚类过程,论文,社区


内蒙古科技大学硕士学位论文-7-NS-Clus图1.5论文合作网络的聚类过程1.4论文组织结构本文的论文具体结构如下:第一章为绪论,主要是介绍了本文的研究背景、目的与意义以及具体研究内容等。研究背景主要介绍了社区发现的发展历程、异构信息网络提出的原因与发展以及异构信息网络中存在的一些基本概念等内容;课题研究的目的与意义主要介绍了当前的社区发现算法在发展过程中存在的一些问题,引出了本文在异构信息网络中进行社区发现的原因;最后介绍了本文的研究内容,即本文选用在相似性度量的基础上进行聚类的这种社区发现算法的原因以及具体的流程。第二章分别介绍了在同构信息网络异构信息网络中进行社区发现所存在的问题以及不同信息网络社区发现的发展过程及所提出经典的社区发现算法,同时在对比不同社区发现算法的优缺点后,提出自己的社区发现算法框架。第三章主要是进行社区发现聚类算法的基础-相似性度量算法,详细介绍了本文的相似性度量算法HCBOW-SMVA算法。该算法是通过融合多条元路径来进行相似性度量,因此需要计算出每条有效元路径的权重以及当前元路径下的任意节点间的相似性。其具体算法是分别对每条元路径下的路径实例进行了相似性度量,然后结合权重信息,获取了所有节点的节点向量化表示,然后根据得到节点向量,利用节点向量趋向性通过空间中的余弦相似度来进行相似度的计算。第四章介绍基于新的相似性度量指标进行聚类算法的基本思想和具体过程。详细描述基于新的相似性进行聚类的社区发现算法过程,包括种子节点的选取,节点聚类和初

【参考文献】:
期刊论文
[1]基于深度神经网络结构的互联网金融市场动态预测[J]. 赵洪科,吴李康,李徵,张兮,刘淇,陈恩红.  计算机研究与发展. 2019(08)
[2]基于LSTM和多特征组合的电影评论专业程度分类[J]. 吴璠,李寿山,周国栋.  计算机科学. 2019(S1)
[3]基于双向量模型的自适应微博话题追踪方法[J]. 黄畅,郭文忠,郭昆.  小型微型计算机系统. 2019(06)
[4]基于拉普拉斯矩阵在Star网络中应用研究[J]. 邓凤茹,陈博海,王晓龙.  北华航天工业学院学报. 2019(01)
[5]一种基于抽样改进加权核K-means的大数据谱聚类算法[J]. 金海,张劲松,吴睿.  测绘通报. 2018(11)
[6]异质信息网络中基于元路径的社团发现算法研究[J]. 郑玉艳,王明省,石川,王锐.  中文信息学报. 2018(09)
[7]面向复杂有权网络的社区发现方法研究[J]. 谭红叶,吴永科,张虎,刘全明,李茹.  中文信息学报. 2018(08)
[8]A New Algorithm for Literature Recommendation Based on a Bibliographic Heterogeneous Information Network[J]. LI Linna,WANG Lijun,JIANG Xueqin,HAN Hongqi,ZHAI Yun.  Chinese Journal of Electronics. 2018(04)
[9]关系对异质群体行为选择的影响——基于人际关系网络调查数据的实证研究[J]. 贺尊,徐黎黎,贺嘉贝.  中南民族大学学报(人文社会科学版). 2018(01)
[10]一种基于关键词的微博话题聚类算法[J]. 林丹,刘建明,谷志瑜.  计算机应用与软件. 2018(01)

硕士论文
[1]基于主题与结构的社区发现方法研究[D]. 刘亚琼.山东农业大学 2019
[2]复杂网络中社区发现算法的研究[D]. 金爽.云南财经大学 2018
[3]基于k-最近邻网络和模板法符号转移熵的脑电节律信号分析[D]. 余娴.南京邮电大学 2017
[4]大规模异构信息网络社区发现算法与社区特征研究[D]. 张正林.北京邮电大学 2017
[5]基于元路径选择和融合的异构信息网络社区挖掘算法研究[D]. 李立.西安电子科技大学 2014



本文编号:3066889

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3066889.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ed44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com