鲁棒矩阵分解方法的研究及在疾病关联数据上的应用
发布时间:2021-08-04 19:18
近年来,越来越多的复杂疾病,如癌症、糖尿病、心脑血管疾病等,正成为死亡率极高的疾病。而且,生物学家和医学家的研究表明,这些复杂的疾病往往与多种生物分子有关联,如药物-靶标相互作用(Drug-Target Interaction,DTI)、药物-疾病相互作用(Drug-Disease Interaction,DDI)、miRNA-疾病关联(miRNA-Disease Association,MDA)和lncRNA-疾病关联(lncRNA-Disease Association,LDA)。虽然这些疾病关联数据中,蕴含着解决复杂疾病的关键的生物信息规律,但是,这些数据中包含着大量的噪声,这些噪声会干扰挖掘潜在的疾病关联信息。在生物信息学中,矩阵分解模型是一种被广泛应用的预测模型,如图正则矩阵分解模型(Graph Regularized Matrix Factorization,GRMF)和协同矩阵分解模型(Collaborative Matrix Factorization,CMF)。但是,传统的矩阵分解模型在疾病关联预测中存在着一些弊端:疾病关联数据集中的噪声值会干扰算法的准确度;误差值的...
【文章来源】:曲阜师范大学山东省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
预测流程图
第2章稀疏图正则矩阵分解方法11数据集的大小和类型,对错误的容忍度有所不同。一般来说,只要误差在合理范围内,就可以接受。图2.2和图2.3分别示出的对NR和GPCR的数据集的不同方法的收敛。图2.1预测流程图图2.2三个方法在NR数据集上的收敛性比较
第2章稀疏图正则矩阵分解方法12图2.3三个方法在GPCR数据集上的收敛性比较2.5.1CVd下的相互作用预测表2.2列出了CVd下的实验结果,最高的AUPR值以粗体显示,括号中给出标准偏差。在NR数据集下,所提的方法优于GRMF方法,并且在添加WKNKN之后与GRMF方法几乎相同。重要的是,使用了预处理后,所提方法的性能获得了较大的提高。此外,将权重矩阵添加到所提的方法,并使用WKNKN后,预测的准确性也得到了提高。而且在将权重矩阵添加到L2,1-GRMF并使用WKNKN后,预测准确性也得到了提高。图2.4显示了NR数据集上每种方法的CVd侧的PR曲线。表2.2CVd下各个方法的AUPR值MethodsNRGPCRICECMF0.482(0.034)0.406(0.008)0.350(0.008)0.375(0.007)GRMF0.517(0.025)0.369(0.011)0.341(0.016)0.349(0.012)WGRMF0.520(0.025)0.408(0.010)0.364(0.018)0.404(0.014)L2,1-GRMF0.543(0.034)0.373(0.011)0.345(0.012)0.346(0.013)L2,1-WGRMF0.542(0.024)0.400(0.010)0.370(0.016)0.408(0.013)WKNKN+CMF0.515(0.032)0.409(0.010)0.350(0.014)0.385(0.004)WKNKN+GRMF0.542(0.028)0.404(0.011)0.356(0.014)0.390(0.010)WKNKN+WGRMF0.528(0.033)0.410(0.012)0.369(0.017)0.401(0.013)WKNKN+L2,1-GRMF0.573(0.011)0.394(0.007)0.356(0.012)0.386(0.013)WKNKN+L2,1-WGRMF0.544(0.026)0.394(0.012)0.374(0.016)0.385(0.007)但是,在GPCR数据集上运行所提的方法,发现它没有优于以前的方法,初步估计是数据集本身的问题。图2.5显示了GPCR数据集上每种方法在CVd侧的PR曲线。我们观察到,执行CVd实验时使用权重矩阵比不使用权重矩阵获得的AUPR值高。此外,在IC数据集上,使用了WKNKN的L2,1-WGRMF方法优于其他任何方法,略优于使用了WKNKN
【参考文献】:
期刊论文
[1]基于HeteSim的疾病关联长非编码RNA预测[J]. 马毅,郭杏莉,孙宇彤,苑倩倩,任阳,段然,高琳. 计算机研究与发展. 2019(09)
[2]一种预测miRNA与疾病关联关系的矩阵分解算法[J]. 刘晓燕,陈希,郭茂祖,车凯,王春宇. 智能系统学报. 2018(06)
[3]miRNA与疾病关联关系预测算法[J]. 郭茂祖,王诗鸣,刘晓燕,田侦. 软件学报. 2017(11)
[4]药物-疾病关系预测:一种推荐系统模型[J]. 汪浩,王海平,吴信东,刘琦. 中国药理学通报. 2015(12)
[5]中国女性乳腺癌发病死亡和生存状况[J]. 陈万青,郑荣寿. 中国肿瘤临床. 2015(13)
[6]结直肠癌流行病学与预防[J]. 万德森. 中国中西医结合外科杂志. 2011(01)
[7]基于流形学习的聚类方法在基因芯片表达谱分析中的应用[J]. 黄伟,刘战民,薛丹,尹京苑. 中国生物医学工程学报. 2010(01)
本文编号:3322261
【文章来源】:曲阜师范大学山东省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
预测流程图
第2章稀疏图正则矩阵分解方法11数据集的大小和类型,对错误的容忍度有所不同。一般来说,只要误差在合理范围内,就可以接受。图2.2和图2.3分别示出的对NR和GPCR的数据集的不同方法的收敛。图2.1预测流程图图2.2三个方法在NR数据集上的收敛性比较
第2章稀疏图正则矩阵分解方法12图2.3三个方法在GPCR数据集上的收敛性比较2.5.1CVd下的相互作用预测表2.2列出了CVd下的实验结果,最高的AUPR值以粗体显示,括号中给出标准偏差。在NR数据集下,所提的方法优于GRMF方法,并且在添加WKNKN之后与GRMF方法几乎相同。重要的是,使用了预处理后,所提方法的性能获得了较大的提高。此外,将权重矩阵添加到所提的方法,并使用WKNKN后,预测的准确性也得到了提高。而且在将权重矩阵添加到L2,1-GRMF并使用WKNKN后,预测准确性也得到了提高。图2.4显示了NR数据集上每种方法的CVd侧的PR曲线。表2.2CVd下各个方法的AUPR值MethodsNRGPCRICECMF0.482(0.034)0.406(0.008)0.350(0.008)0.375(0.007)GRMF0.517(0.025)0.369(0.011)0.341(0.016)0.349(0.012)WGRMF0.520(0.025)0.408(0.010)0.364(0.018)0.404(0.014)L2,1-GRMF0.543(0.034)0.373(0.011)0.345(0.012)0.346(0.013)L2,1-WGRMF0.542(0.024)0.400(0.010)0.370(0.016)0.408(0.013)WKNKN+CMF0.515(0.032)0.409(0.010)0.350(0.014)0.385(0.004)WKNKN+GRMF0.542(0.028)0.404(0.011)0.356(0.014)0.390(0.010)WKNKN+WGRMF0.528(0.033)0.410(0.012)0.369(0.017)0.401(0.013)WKNKN+L2,1-GRMF0.573(0.011)0.394(0.007)0.356(0.012)0.386(0.013)WKNKN+L2,1-WGRMF0.544(0.026)0.394(0.012)0.374(0.016)0.385(0.007)但是,在GPCR数据集上运行所提的方法,发现它没有优于以前的方法,初步估计是数据集本身的问题。图2.5显示了GPCR数据集上每种方法在CVd侧的PR曲线。我们观察到,执行CVd实验时使用权重矩阵比不使用权重矩阵获得的AUPR值高。此外,在IC数据集上,使用了WKNKN的L2,1-WGRMF方法优于其他任何方法,略优于使用了WKNKN
【参考文献】:
期刊论文
[1]基于HeteSim的疾病关联长非编码RNA预测[J]. 马毅,郭杏莉,孙宇彤,苑倩倩,任阳,段然,高琳. 计算机研究与发展. 2019(09)
[2]一种预测miRNA与疾病关联关系的矩阵分解算法[J]. 刘晓燕,陈希,郭茂祖,车凯,王春宇. 智能系统学报. 2018(06)
[3]miRNA与疾病关联关系预测算法[J]. 郭茂祖,王诗鸣,刘晓燕,田侦. 软件学报. 2017(11)
[4]药物-疾病关系预测:一种推荐系统模型[J]. 汪浩,王海平,吴信东,刘琦. 中国药理学通报. 2015(12)
[5]中国女性乳腺癌发病死亡和生存状况[J]. 陈万青,郑荣寿. 中国肿瘤临床. 2015(13)
[6]结直肠癌流行病学与预防[J]. 万德森. 中国中西医结合外科杂志. 2011(01)
[7]基于流形学习的聚类方法在基因芯片表达谱分析中的应用[J]. 黄伟,刘战民,薛丹,尹京苑. 中国生物医学工程学报. 2010(01)
本文编号:3322261
本文链接:https://www.wllwen.com/kejilunwen/yysx/3322261.html