矩阵分解学习及其在网络社区发现中的应用研究
发布时间:2021-07-05 14:51
矩阵分解学习(Matrix Factorization Learning)是机器学习中应用最广泛的方法之一,其主要目标是把原始的数据矩阵表示为两个或多个低秩矩阵的乘积形式,分解之后的矩阵的秩远小于原始矩阵的秩,再应用低秩的低维矩阵表示处理各种分类和聚类任务。矩阵分解通过将数据分解成不同的紧凑有效表示方法能高效发现模型隐含的潜在因子或预测矩阵中的缺失数值,近年来受到了越来越多研究人员的重视。在网络科学的社区发现应用中,由于所有的网络结构均可以通过关系图来表示,而图的主要结构表征即为其邻接矩阵(Adjacency Matrix);因此应用矩阵分解学习相关方法,能有效将整个社区网络中节点聚合到不同社区中,可以得到很好的应用和实验效果。本文将系统性地调研目前矩阵分解学习和网络社区发现的主要研究方法,并针对网络社区发现中的无监督、重叠效应以及网络数据特性等实际问题,提出半监督对称非负矩阵分解和贝叶斯对称非负矩阵分解两种全新的矩阵分解算法,以社会网络和科学网络为主要研究数据,进行社区发现相关方法比较和具体实践分析,获得良好的实验结果和应用效果。本论文的主要贡献和创新点体现在以下几个方面:1、半监督...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:126 页
【学位级别】:博士
【部分图文】:
–1主成分分析
第二章社区发现与矩阵分解学习方法介绍上海交通大学博士学位论文P(X|α,μ,σ2)=∫p(X|W,μ,σ2)p(W|α)dW(2–6)其中,μ和σ2为需要估计的参数。2.2.2ICA矩阵分解独立成分分析(ICA)[59]是一种从多维统计数据中寻找潜在因素或成分的方法。ICA不同于其他方法的地方在于,它寻找的是既具有统计独立性又具有非高斯性的成分。在ICA中,对数据做白化预处理可以去除不同观测信号之间的关联性,从而简化了独立分量后续的提取过程。相比不对数据进行白化处,数据进行白化处理的算法收敛性更好[60]。ICA相比于PCA,其追求的效果是不一样的:ICA寻找的是最能使数据的相互独立的方向,而PCA仅要求方向是不相关的(图2–2)。我们知道,独立可以推出不相关,反之则不然,而高斯分布的情况下独立等价于不相关。因此ICA需要数据的高阶统计量,PCA则只需要计算二阶统计量。图2–2ICA分解模型Figure2–2ICAMatrixFactorizationModel.ICA主要用于无监督情况下源信号分离的问题:设有d个独立的标量信号源发出声音,其在时刻t发出的声音可表示为st=(s(1)t,s(2)t,...,s(d)t)∈Rd。同样地,有d个观测器在进行采样,其在时刻t记录的信号可表示为:xt∈Rd。认为二者满足下式,其中矩阵A∈Rd×d被称为混合矩阵,反映信道衰减参数:xt=Ast(2–7)—12—
上海交通大学博士学位论文第二章社区发现与矩阵分解学习方法介绍显然,有多少个采样时刻,就可以理解为有多少个样本;而信号源的个数可以理解为特征的维数。ICA的目标就是从x中提取出d个独立成分,即找到非混合矩阵W:st=Wxt,W=A1(2–8)将矩阵W记为W=(w1;w2;...;wd),也就是它的第j行是wj,那么s(j)i=wjxi。(这里的W相比于PCA推导中的W差一个转置)2.2.3SVD矩阵分解在矩阵分解学习中,目标矩阵如果是方阵(M=N),一般使用PCA的特征值分解方法来实现;对于不是方阵,则一般使用奇异值(SVD)分解[61]去实现的。因此,SVD可以看作是对非方阵做PCA处理的一种方式,通过分解出特征值,选择特征向量中对应有较大的特征值的部分构成投影矩阵,然后做线性变换(将数据X投影到低维空间)。SVD矩阵分解方法在信号处理和推荐系统上有许多相关应用。图2–3SVD分解模型Figure2–3SVDMatrixFactorizationModel.这里U和V是X的左(右)奇异向量的正交矩阵,Σ是从最大值排序的奇异值的对角矩阵(σ1≥σ2≥...≥σk),这些决定了原始矩阵的等级;U、VT和Σ中的每个奇异值从左上角开始,由大到小排列,左边部分对应可相关的原始特征数据,用于进行数据重构。SVD作为一个优化问题情况下,对应表示如下:mincAm×dCm×kXk×nF(2–9)—13—
【参考文献】:
期刊论文
[1]徽州契约文书地域信息组织与揭示的路径探究[J]. 王昕,张洁,汤萌. 新世纪图书馆. 2018(04)
[2]基于矩阵分解学习的科学合作网络社区发现研究[J]. 施晓华,卢宏涛. 数据分析与知识发现. 2017(09)
[3]基于小世界理论的无线传感器网络建模[J]. 李俊,杜萍. 科技广场. 2015(12)
[4]学者身份识别的机制及关键技术研究[J]. 常娥. 图书馆论坛. 2015(10)
[5]应用非负矩阵分解模型的社区发现方法综述[J]. 李亚芳,贾彩燕,于剑. 计算机科学与探索. 2016(01)
[6]基于文献实体关系模型的高校机构知识库作者认领模式研究[J]. 陈嘉勇,周婕,李玲,肖明. 情报理论与实践. 2015(02)
[7]中文文献题录数据作者重名消解问题研究[J]. 朱云霞. 图书情报工作. 2014(23)
[8]共词网络的结构与演化:概念与理论进展[J]. 张斌. 情报杂志. 2014(07)
[9]基于复杂网络分析的软件高危缺陷评估方法[J]. 马皖王莹,陈林,陈芝菲,王子元. 计算机科学与探索. 2014(08)
[10]基于语法树的程序相似度判定方法[J]. 石野,黄龙和,车天阳,高斯,王健. 吉林大学学报(信息科学版). 2014(01)
博士论文
[1]半监督低秩矩阵学习及其应用[D]. 贺杨成.上海交通大学 2015
[2]复杂网络社团结构分析方法研究[D]. 赖大荣.上海交通大学 2011
本文编号:3266280
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:126 页
【学位级别】:博士
【部分图文】:
–1主成分分析
第二章社区发现与矩阵分解学习方法介绍上海交通大学博士学位论文P(X|α,μ,σ2)=∫p(X|W,μ,σ2)p(W|α)dW(2–6)其中,μ和σ2为需要估计的参数。2.2.2ICA矩阵分解独立成分分析(ICA)[59]是一种从多维统计数据中寻找潜在因素或成分的方法。ICA不同于其他方法的地方在于,它寻找的是既具有统计独立性又具有非高斯性的成分。在ICA中,对数据做白化预处理可以去除不同观测信号之间的关联性,从而简化了独立分量后续的提取过程。相比不对数据进行白化处,数据进行白化处理的算法收敛性更好[60]。ICA相比于PCA,其追求的效果是不一样的:ICA寻找的是最能使数据的相互独立的方向,而PCA仅要求方向是不相关的(图2–2)。我们知道,独立可以推出不相关,反之则不然,而高斯分布的情况下独立等价于不相关。因此ICA需要数据的高阶统计量,PCA则只需要计算二阶统计量。图2–2ICA分解模型Figure2–2ICAMatrixFactorizationModel.ICA主要用于无监督情况下源信号分离的问题:设有d个独立的标量信号源发出声音,其在时刻t发出的声音可表示为st=(s(1)t,s(2)t,...,s(d)t)∈Rd。同样地,有d个观测器在进行采样,其在时刻t记录的信号可表示为:xt∈Rd。认为二者满足下式,其中矩阵A∈Rd×d被称为混合矩阵,反映信道衰减参数:xt=Ast(2–7)—12—
上海交通大学博士学位论文第二章社区发现与矩阵分解学习方法介绍显然,有多少个采样时刻,就可以理解为有多少个样本;而信号源的个数可以理解为特征的维数。ICA的目标就是从x中提取出d个独立成分,即找到非混合矩阵W:st=Wxt,W=A1(2–8)将矩阵W记为W=(w1;w2;...;wd),也就是它的第j行是wj,那么s(j)i=wjxi。(这里的W相比于PCA推导中的W差一个转置)2.2.3SVD矩阵分解在矩阵分解学习中,目标矩阵如果是方阵(M=N),一般使用PCA的特征值分解方法来实现;对于不是方阵,则一般使用奇异值(SVD)分解[61]去实现的。因此,SVD可以看作是对非方阵做PCA处理的一种方式,通过分解出特征值,选择特征向量中对应有较大的特征值的部分构成投影矩阵,然后做线性变换(将数据X投影到低维空间)。SVD矩阵分解方法在信号处理和推荐系统上有许多相关应用。图2–3SVD分解模型Figure2–3SVDMatrixFactorizationModel.这里U和V是X的左(右)奇异向量的正交矩阵,Σ是从最大值排序的奇异值的对角矩阵(σ1≥σ2≥...≥σk),这些决定了原始矩阵的等级;U、VT和Σ中的每个奇异值从左上角开始,由大到小排列,左边部分对应可相关的原始特征数据,用于进行数据重构。SVD作为一个优化问题情况下,对应表示如下:mincAm×dCm×kXk×nF(2–9)—13—
【参考文献】:
期刊论文
[1]徽州契约文书地域信息组织与揭示的路径探究[J]. 王昕,张洁,汤萌. 新世纪图书馆. 2018(04)
[2]基于矩阵分解学习的科学合作网络社区发现研究[J]. 施晓华,卢宏涛. 数据分析与知识发现. 2017(09)
[3]基于小世界理论的无线传感器网络建模[J]. 李俊,杜萍. 科技广场. 2015(12)
[4]学者身份识别的机制及关键技术研究[J]. 常娥. 图书馆论坛. 2015(10)
[5]应用非负矩阵分解模型的社区发现方法综述[J]. 李亚芳,贾彩燕,于剑. 计算机科学与探索. 2016(01)
[6]基于文献实体关系模型的高校机构知识库作者认领模式研究[J]. 陈嘉勇,周婕,李玲,肖明. 情报理论与实践. 2015(02)
[7]中文文献题录数据作者重名消解问题研究[J]. 朱云霞. 图书情报工作. 2014(23)
[8]共词网络的结构与演化:概念与理论进展[J]. 张斌. 情报杂志. 2014(07)
[9]基于复杂网络分析的软件高危缺陷评估方法[J]. 马皖王莹,陈林,陈芝菲,王子元. 计算机科学与探索. 2014(08)
[10]基于语法树的程序相似度判定方法[J]. 石野,黄龙和,车天阳,高斯,王健. 吉林大学学报(信息科学版). 2014(01)
博士论文
[1]半监督低秩矩阵学习及其应用[D]. 贺杨成.上海交通大学 2015
[2]复杂网络社团结构分析方法研究[D]. 赖大荣.上海交通大学 2011
本文编号:3266280
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3266280.html