融合高阶结构信息的网络表征学习
发布时间:2021-06-07 02:35
随着大数据技术和人工智能技术的高速发展,网络结构作为一种常用的数据结构,用于描述现实世界中实体之间的复杂关系,在许多的领域中已经被大量的使用。常见的应用包括在网络数据上进行社区检测,节点分类,链路预测以及网络可视化等等任务。在工业界也有着大量的网络应用,例如在社交网络上进行诈骗账户的判断等等。但传统的网络数据分析方法大都是基于人工定义的网络特征。这类方法通常无法很好地适应各种下游的网络分析任务,同时有着较高的时间复杂度。而本文研究的网络表征方法就尝试解决此类问题。网络表征学习通过对网络中节点矢量化表征来反映节点及其拓扑特点,从而体现现实中事物之间存在或有可能存在的各种关系,针对性的解决不同网络中不同的网络分析任务。相对于传统网络数据分析方法,网络表征学习使得下游网络分析任务的性能能够有所提高,同时还能一定程度上降低复杂度。本文的工作主要集中在利用复杂网络中的高阶结构信息来改进目前的网络表征算法。目前大多数网络表征学习方法主要关注保持网络的社区结构特征,即如果两个节点在网络中距离较近,则它们在表征后的低维空间中的距离也接近。但网络中还存在结构等效性,也被称为节点角色,例如网络中某些节点之...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:69 页
【学位级别】:硕士
【图文】:
社区结构可视化结构等效性可视化
杭州电子科技大学硕士学位论文12得网络分析的复杂度得以降低[18,23]。网络表征的主要方法就是通过训练出一个映射函数,将网络中的每个节点映射为某个低维向量空间中的点,其目标是优化这个映射函数使得这个节点在低维向量空间对应向量的几何关系能反映出原始网络的特征关系。因此学习得到的节点表征向量可以作为下游机器学习任务的特征输入,具体如下图2.2所示。其中节点i是网络G中的某一个节点,同时假设网络总的节点总数为N。进过网络表征学习后,将网络中每个节点映射成该节点对应的表征向量∈,其中表示表征向量的维数,通常有,将所有的表征向量组合在一起就得到了网络表征矩阵∈×。下一步就开始进行网络数据的实际应用,由于得到的网络表征矩阵包含了原始网络的特征,同时又是以矩阵的形式存在,故能直接作为传统机器学习算法的输入,例如线性回归,逻辑回归等等。图2.2网络表征算法过程图示进一步地,下面用数学语言来描述网络表征学习的过程。已知一个网络数据=(,),网络表征学习的目的就是找到一个映射函数满足:∈,()→∈,同时要求以及表征向量能够保存原始图数据的特征。根据网络表征的具体实施方法,可以分为三大类:基于矩阵分解的方法(Matrix-Factorizationbasedapproaches),基于网络随机游走的方法(Random-Walkbasedapproaches),基于深度学习的方法(Deep-Learningbasedapproaches)。下面将详细介绍各类方法的基本原理并举例说明。2.3.1基于矩阵分解的方法此类方法首先通过矩阵的形式来表示网络中节点之间的连接[18,19],经常使用的矩阵包括邻接矩阵,拉普拉斯矩阵,相似度矩阵等等[31,36,37,39,70]。随后该类方法通过一系列的矩阵运算,对使用的矩阵进行降维,常用的操作包括:矩阵分解,
燃塾谧匀挥?言处理中的句子(sentence)。基于随机游走的网络表征方法主要可以分为两个步骤:首先通过多次随机游走在网络上的进行连续的节点序列采样,其次将这些采样得到的节点序列作为word2vec中的CBOW或skip-gram模型,最后输出的即是需要的网络表征向量。下面以网络表征学习中的第一个基于随机游走的方法DeepWalk[40]为例,详细介绍相关过程。DeepWalk算法的第一步就是进行节点采样,具体是在网络上每一个点都进行多次重复且固定长度的随机游走,常用的设置是每个节点往前进行游走80部步,并且重复这一过程10次。如图2.3所示,为网络中某个节点为源节点进行随机游走的过程。可以看出,源节点有5个邻居,如果考虑到无权图,每个邻居被选择作为下一个游走序列的概率都是1/5,例如形成节点序列→的概率就是1/5。如果考虑到有权图,相应的权值也能考虑进去[6,33]。随后不断重复这个过程,直到约定的循环次数满足,得到随机游走的节点序列。图2.3网络上随机游走过程图示该算法的第二步是将第一步产生的节点序列输入到word2vec中的skip-gram模型中,而skip-gram模型原本用于自然语言处理中产生词向量(wordembedding),其主要思想是两个单词同时出现的频率越高,单词之间的语义相似性越高。skip-gram模型的主要过程是:通过给定一个中心词(centerword),经过只含有一个隐藏层的简单神经网路训练,来最大化其附近的词,也被称为上下文(context)。Skip-gram模型的目标是以某个中心词为条件,最大化中心词对应的上下文出现
【参考文献】:
期刊论文
[1]网络表示学习的研究与发展[J]. 尹赢,吉立新,黄瑞阳,杜立新. 网络与信息安全学报. 2019(02)
[2]网络表示学习综述[J]. 涂存超,杨成,刘知远,孙茂松. 中国科学:信息科学. 2017(08)
[3]基于核化图嵌入的最佳鉴别分析与人脸识别[J]. 卢桂馥,林忠,金忠. 软件学报. 2011(07)
博士论文
[1]线性图嵌入算法及其应用[D]. 陈江峰.北京交通大学 2012
[2]基于图嵌入的特征抽取与人脸识别研究[D]. 万鸣华.南京理工大学 2011
[3]智能视频监控中的目标识别与异常行为建模与分析[D]. 张一.上海交通大学 2010
硕士论文
[1]社交网络表征算法研究[D]. 石立鹏.太原理工大学 2018
本文编号:3215668
【文章来源】:杭州电子科技大学浙江省
【文章页数】:69 页
【学位级别】:硕士
【图文】:
社区结构可视化结构等效性可视化
杭州电子科技大学硕士学位论文12得网络分析的复杂度得以降低[18,23]。网络表征的主要方法就是通过训练出一个映射函数,将网络中的每个节点映射为某个低维向量空间中的点,其目标是优化这个映射函数使得这个节点在低维向量空间对应向量的几何关系能反映出原始网络的特征关系。因此学习得到的节点表征向量可以作为下游机器学习任务的特征输入,具体如下图2.2所示。其中节点i是网络G中的某一个节点,同时假设网络总的节点总数为N。进过网络表征学习后,将网络中每个节点映射成该节点对应的表征向量∈,其中表示表征向量的维数,通常有,将所有的表征向量组合在一起就得到了网络表征矩阵∈×。下一步就开始进行网络数据的实际应用,由于得到的网络表征矩阵包含了原始网络的特征,同时又是以矩阵的形式存在,故能直接作为传统机器学习算法的输入,例如线性回归,逻辑回归等等。图2.2网络表征算法过程图示进一步地,下面用数学语言来描述网络表征学习的过程。已知一个网络数据=(,),网络表征学习的目的就是找到一个映射函数满足:∈,()→∈,同时要求以及表征向量能够保存原始图数据的特征。根据网络表征的具体实施方法,可以分为三大类:基于矩阵分解的方法(Matrix-Factorizationbasedapproaches),基于网络随机游走的方法(Random-Walkbasedapproaches),基于深度学习的方法(Deep-Learningbasedapproaches)。下面将详细介绍各类方法的基本原理并举例说明。2.3.1基于矩阵分解的方法此类方法首先通过矩阵的形式来表示网络中节点之间的连接[18,19],经常使用的矩阵包括邻接矩阵,拉普拉斯矩阵,相似度矩阵等等[31,36,37,39,70]。随后该类方法通过一系列的矩阵运算,对使用的矩阵进行降维,常用的操作包括:矩阵分解,
燃塾谧匀挥?言处理中的句子(sentence)。基于随机游走的网络表征方法主要可以分为两个步骤:首先通过多次随机游走在网络上的进行连续的节点序列采样,其次将这些采样得到的节点序列作为word2vec中的CBOW或skip-gram模型,最后输出的即是需要的网络表征向量。下面以网络表征学习中的第一个基于随机游走的方法DeepWalk[40]为例,详细介绍相关过程。DeepWalk算法的第一步就是进行节点采样,具体是在网络上每一个点都进行多次重复且固定长度的随机游走,常用的设置是每个节点往前进行游走80部步,并且重复这一过程10次。如图2.3所示,为网络中某个节点为源节点进行随机游走的过程。可以看出,源节点有5个邻居,如果考虑到无权图,每个邻居被选择作为下一个游走序列的概率都是1/5,例如形成节点序列→的概率就是1/5。如果考虑到有权图,相应的权值也能考虑进去[6,33]。随后不断重复这个过程,直到约定的循环次数满足,得到随机游走的节点序列。图2.3网络上随机游走过程图示该算法的第二步是将第一步产生的节点序列输入到word2vec中的skip-gram模型中,而skip-gram模型原本用于自然语言处理中产生词向量(wordembedding),其主要思想是两个单词同时出现的频率越高,单词之间的语义相似性越高。skip-gram模型的主要过程是:通过给定一个中心词(centerword),经过只含有一个隐藏层的简单神经网路训练,来最大化其附近的词,也被称为上下文(context)。Skip-gram模型的目标是以某个中心词为条件,最大化中心词对应的上下文出现
【参考文献】:
期刊论文
[1]网络表示学习的研究与发展[J]. 尹赢,吉立新,黄瑞阳,杜立新. 网络与信息安全学报. 2019(02)
[2]网络表示学习综述[J]. 涂存超,杨成,刘知远,孙茂松. 中国科学:信息科学. 2017(08)
[3]基于核化图嵌入的最佳鉴别分析与人脸识别[J]. 卢桂馥,林忠,金忠. 软件学报. 2011(07)
博士论文
[1]线性图嵌入算法及其应用[D]. 陈江峰.北京交通大学 2012
[2]基于图嵌入的特征抽取与人脸识别研究[D]. 万鸣华.南京理工大学 2011
[3]智能视频监控中的目标识别与异常行为建模与分析[D]. 张一.上海交通大学 2010
硕士论文
[1]社交网络表征算法研究[D]. 石立鹏.太原理工大学 2018
本文编号:3215668
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3215668.html