基于时间序列的复杂网络重构算法研究
发布时间:2020-07-13 19:31
【摘要】:在现实世界中,复杂网络无处不在,涵盖了人类社会生活的各个领域。在很多情况下,网络拓扑是隐蔽的,甚至是未知的。如何从观测到的数据推断网络结构是复杂网络研究的重要问题,也是分析系统性能的基础。系统动力学的复杂性、有限的噪声测量数据以及大规模网络的维数灾难,使得复杂网络重构变得更加富有挑战性。本文在比较和分析已有网络重构算法的基础上,综合考虑了实际网络的稀疏性、非线性、因果性以及时延时变等结构特性问题。针对当前复杂网络重构算法中存在的不足之处,有侧重点地研究并提出了几种基于时间序列的网络重构算法。其中稀疏性和非线性是贯穿全文的主脉络,也是本文提出的所有方法的前提和基础。本文的主要工作和研究内容如下:1.针对实际网络的非线性、稀疏性和因果性,提出了一种基于组稀疏非线性条件格兰杰因果的网络重构算法(GLasso-NCGC)。该算法不需要假设模型完全已知或利用模型函数的一些先验信息。首先建立非线性条件格兰杰因果模型,接着采用组稀疏的方法去选择候选变量集,最后通过非线性条件格兰杰因果方法确定因果网络结构。在仿真模型方面,分别用非线性矢量自回归模型、生化反应网络模型、基因调控网络模型以及共生网络模型来进行详细的分析,同时还考察了不同的样本量、噪声强度和网络结构类型对重构结果的影响。在数据应用方面,采用Dream竞赛的公开数据集来进一步验证该方法的重构性能。通过和其他主流方法的比较,所有的结果都表明该方法的重构性能更好,鲁棒性更强。2.考虑到实际网络的时延现象,进一步研究了存在非均匀时滞的网络重构问题,提出了一种基于非均匀嵌入非线性条件格兰杰因果的时延网络重构算法(NENCGC)。首先采用基于信息理论的非均匀嵌入策略去选择候选时滞成分,然后把这些选择的时滞成分按照所属的节点进行归类,接着分别用径向基函数去拟合节点之间的非线性影响关系。在仿真方面,先基于经典的离散时延Mackey-Glass模型做了详细的研究,通过和其他主流方法的比较,证明了该方法的优越性。同时为了验证该方法的鲁棒性,还进一步考察了样本量、时滞、噪声强度以及耦合强度的变化对重构性能的影响。最后基于连续时延基因调控网络模型的研究,展示了该方法在连续模型上也能取得精确的重构效果。此外,还将NENCGC和GLasso-NCGC这两种方法进行了比较,进一步说明了时滞成分选择的重要性。因为GLasso-NCGC没有考虑时滞成分的选取,所以并不适用于时延网络存在非均匀时滞的情况。虽然NENCGC还能被用于非时延网络的重构,但是此时GLasso-NCGC具有相对较强的鲁棒性,同时GLasso-NCGC的计算效率较高,运行时间更短。3.为了进一步辨识网络的权重,通过结合系统模型的先验信息,提出了一种基于贝叶斯压缩感知的非线性时变加权网络重构算法。首先根据系统类型构建一系列可能的非线性基函数集合,然后基于一类非线性时变网络模型的通用框架,将模型参数的估计转化为贝叶斯压缩感知问题,通过稀疏贝叶斯学习去选择相应的基函数来实现时变参数的辨识,不仅考虑了结构的辨识,而且也能跟踪权重的变化。通过引入Laplace先验,能够使估计的参数具有更高的稀疏性和精度。同时,该方法中所有待估计的参数不需要事先设定,可完全基于观测数据来获得。最后基于时变生化网络模型和时变基因调控网络模型的仿真,证实了该方法的有效性。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:O157.5;O211.61
【图文】:
以上的这些工作,通常都是先对特定类型的网络建模,然后转化到压缩感知框架之中,再基于模型生成数据,最后用 Lasso 方法去求解这个问题。基于压缩感知的网络重构框图如图1 3 所示 [67]。此外,很多方法也都是基于已知模型的,即假设在模型已知的条件下,用有限的样本量来重构网络 [67 70]。但是实际的模型通常都是未知的,再加上节点之间复杂的非线性影响关系,使得网络重构变得极富挑战性。很多研究工作采用稀疏线性回归模型来逼近非线性关系 [71 73]。文献 [71] 基于线性微分方程模型,考虑在噪声输入的情况下,采用 QR 分解和压缩感知相结合去重构网络。文献 [72] 用稀疏贝叶斯去推断基因调控网络模型中节点之间的影响关系。文献 [73] 则通过 Lasso 类型正则化方法去推断实际基因调控网络。同时文献 [73] 还考虑了一些先验结构信息,研究表明,在基因调控网络推断方面,合并转录因子和目标基因之间的初始信息,能够有效地提高网络重构的精度。针— 7 —
有真实存在的连边在不同的样本量下都能保持一定的因果强度。而对于不存在的连边,NGCI 值都相对很小。随着样本量的增加,所有不存在的连边的 NGCI值都基本上趋于零。综上,图4 15的结果展示了 NENCGC 能够完全恢复所有真实存在的连边,即使在样本量相对很小的情况下,也能有不错的效果。最后考察一下 NENCGC 受噪声强度 σ 的影响。在噪声强度 σ = 0.01 时,图4 16分别综合了在 10 次实验下的非线性格兰杰因果索引矩阵及其相应的 P值矩阵中的所有元素的取值情况,其中红点和蓝点分别代表存在的连边和不存在的连边。在图4 16中,还分别就不同样本量 M = 60 和 M = 600 这两种情况做了比较。在M = 60时,红点和蓝点有许多重合之处,这说明缺乏一个明确的阈值将它们完全区分开来。但是在M = 600时,尽管还有若干重合之处,红点和蓝点之间的分隔就很明显。为了进一步说明鲁棒性能,图4 17 给出了噪声强度σ = 0.2的结果。尽管此时M = 60下红点和蓝点的重合变多了
本文编号:2753880
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:O157.5;O211.61
【图文】:
以上的这些工作,通常都是先对特定类型的网络建模,然后转化到压缩感知框架之中,再基于模型生成数据,最后用 Lasso 方法去求解这个问题。基于压缩感知的网络重构框图如图1 3 所示 [67]。此外,很多方法也都是基于已知模型的,即假设在模型已知的条件下,用有限的样本量来重构网络 [67 70]。但是实际的模型通常都是未知的,再加上节点之间复杂的非线性影响关系,使得网络重构变得极富挑战性。很多研究工作采用稀疏线性回归模型来逼近非线性关系 [71 73]。文献 [71] 基于线性微分方程模型,考虑在噪声输入的情况下,采用 QR 分解和压缩感知相结合去重构网络。文献 [72] 用稀疏贝叶斯去推断基因调控网络模型中节点之间的影响关系。文献 [73] 则通过 Lasso 类型正则化方法去推断实际基因调控网络。同时文献 [73] 还考虑了一些先验结构信息,研究表明,在基因调控网络推断方面,合并转录因子和目标基因之间的初始信息,能够有效地提高网络重构的精度。针— 7 —
有真实存在的连边在不同的样本量下都能保持一定的因果强度。而对于不存在的连边,NGCI 值都相对很小。随着样本量的增加,所有不存在的连边的 NGCI值都基本上趋于零。综上,图4 15的结果展示了 NENCGC 能够完全恢复所有真实存在的连边,即使在样本量相对很小的情况下,也能有不错的效果。最后考察一下 NENCGC 受噪声强度 σ 的影响。在噪声强度 σ = 0.01 时,图4 16分别综合了在 10 次实验下的非线性格兰杰因果索引矩阵及其相应的 P值矩阵中的所有元素的取值情况,其中红点和蓝点分别代表存在的连边和不存在的连边。在图4 16中,还分别就不同样本量 M = 60 和 M = 600 这两种情况做了比较。在M = 60时,红点和蓝点有许多重合之处,这说明缺乏一个明确的阈值将它们完全区分开来。但是在M = 600时,尽管还有若干重合之处,红点和蓝点之间的分隔就很明显。为了进一步说明鲁棒性能,图4 17 给出了噪声强度σ = 0.2的结果。尽管此时M = 60下红点和蓝点的重合变多了
【参考文献】
中国博士学位论文全文数据库 前1条
1 张秀军;基于互信息的基因调控网络构建方法研究[D];上海大学;2013年
本文编号:2753880
本文链接:https://www.wllwen.com/kejilunwen/yysx/2753880.html