基于HeteSim的疾病关联长非编码RNA预测
发布时间:2021-04-13 20:53
越来越多的研究表明,长非编码RNA(long non-coding RNA, lncRNA)在许多生物过程中具有重要的功能,而这些长非编码RNA的变异或功能失调会导致一些复杂疾病的发生.通过生物信息学方法预测潜在的长非编码RNA-疾病关联关系,对于致病机理的探索以及疾病诊断、治疗、预后和预防都具有重要的意义.基于疾病基因关联关系的异质信息网络,研究者使用了一种相关性计算法方法——HeteSim来计算疾病基因之间的相关性,进而预测致病基因.使用的方法基于路径约束,具有可扩展性,算法效率高,留一交叉验证实验表明该方法的预测结果优于其他方法.将其应用在卵巢癌和胃癌的预测分析中,相关文献表明,所提方法的预测结果已被生物实验等验证,再次表明该方法的有效性.
【文章来源】:计算机研究与发展. 2019,56(09)北大核心EICSCD
【文章页数】:8 页
【部分图文】:
图1异质信息网络实例和元路径[24]Fig.1Heterogeneousinformationnetworkinstanceandmeta-path[24]
R,PL=A1A2…Amid-1M,PR=MAmid+1…Al+1.M为路径中的中间类型对象,当路径长度为偶数时mid=l2+1,当路径长度为奇数时mid=l+12+1.对于我们选择的元路径lncRNA-疾病-lncRNA-疾病(LDLD),由于路径长度是奇数,元路径两端的2个节点始终都不会在1个点相遇,因此我们需要插入中间类型M从而使路径可以等分成路径PL=LDM和PR=MLD,如图3所示:Fig.3BeforeandafterinsertionoftheintermediatetypeM图3插入中间类型M前后下面介绍如何利用矩阵乘法计算lncRNA和疾病之间的关联得分.首先,我们定义2类矩阵:转移概率矩阵和可达概率矩阵.定义2.转移概率矩阵.定义有向元路径A→?RB,对象A和对象B之间的连接关系为R(A和B表示同一类型对象构成的集合),A和B之间的关系可以用0?1邻接矩阵WAB表示,元素1表示2节点连通,元素0表示2节点不连通.将0?1邻接矩阵WAB分别按照行向量和列向量进行标准化操作,得到矩阵XAB和YAB.XAB和YAB就是转移概率矩阵,分别表示A→?RB和BR→?-1A这2种有向关系.根据矩阵的性质,可以得到:XAB=YTBA,YAB=XTBA.定义3.可达概率矩阵.转移概率矩阵是可达概率矩阵的特例
公式为FPR=FPFP+TN,(4)TPR=TPTP+FN.(5)TPR表示的是移除的关联边排名在k%以内的比率;FPR表示的是不存在的关联边排名在k%以内的比率.当阈值k在1~100之间变化时可以得到相应的TPR和FPR.通过这种方式,可以绘制ROC曲线,从而计算AUC.按照以上步骤,我们在lncRNA-疾病异质信息网络上进行了留一交叉验证,并取得了0.6828的AUC.相应的ROC曲线如图4所示:Fig.4Leave-one-outcrossvalidationROCcurve图4留一交叉验证ROC曲线图为了提高方法的性能,我们将编码基因和疾病关联关系整合到lncRNA-疾病网络中得到基因-疾病异质信息网络.我们在基因-疾病异质信息网络上进行了留一交叉验证,负样本的构造方法与之前类似,得到的AUC值为0.7835,如图4所示.很明显,马毅等:基于HeteSim的疾病关联长非编码RNA预测3981
【参考文献】:
期刊论文
[1]动态蛋白质网络的构建、分析及应用研究进展[J]. 李敏,孟祥茂. 计算机研究与发展. 2017(06)
本文编号:3135991
【文章来源】:计算机研究与发展. 2019,56(09)北大核心EICSCD
【文章页数】:8 页
【部分图文】:
图1异质信息网络实例和元路径[24]Fig.1Heterogeneousinformationnetworkinstanceandmeta-path[24]
R,PL=A1A2…Amid-1M,PR=MAmid+1…Al+1.M为路径中的中间类型对象,当路径长度为偶数时mid=l2+1,当路径长度为奇数时mid=l+12+1.对于我们选择的元路径lncRNA-疾病-lncRNA-疾病(LDLD),由于路径长度是奇数,元路径两端的2个节点始终都不会在1个点相遇,因此我们需要插入中间类型M从而使路径可以等分成路径PL=LDM和PR=MLD,如图3所示:Fig.3BeforeandafterinsertionoftheintermediatetypeM图3插入中间类型M前后下面介绍如何利用矩阵乘法计算lncRNA和疾病之间的关联得分.首先,我们定义2类矩阵:转移概率矩阵和可达概率矩阵.定义2.转移概率矩阵.定义有向元路径A→?RB,对象A和对象B之间的连接关系为R(A和B表示同一类型对象构成的集合),A和B之间的关系可以用0?1邻接矩阵WAB表示,元素1表示2节点连通,元素0表示2节点不连通.将0?1邻接矩阵WAB分别按照行向量和列向量进行标准化操作,得到矩阵XAB和YAB.XAB和YAB就是转移概率矩阵,分别表示A→?RB和BR→?-1A这2种有向关系.根据矩阵的性质,可以得到:XAB=YTBA,YAB=XTBA.定义3.可达概率矩阵.转移概率矩阵是可达概率矩阵的特例
公式为FPR=FPFP+TN,(4)TPR=TPTP+FN.(5)TPR表示的是移除的关联边排名在k%以内的比率;FPR表示的是不存在的关联边排名在k%以内的比率.当阈值k在1~100之间变化时可以得到相应的TPR和FPR.通过这种方式,可以绘制ROC曲线,从而计算AUC.按照以上步骤,我们在lncRNA-疾病异质信息网络上进行了留一交叉验证,并取得了0.6828的AUC.相应的ROC曲线如图4所示:Fig.4Leave-one-outcrossvalidationROCcurve图4留一交叉验证ROC曲线图为了提高方法的性能,我们将编码基因和疾病关联关系整合到lncRNA-疾病网络中得到基因-疾病异质信息网络.我们在基因-疾病异质信息网络上进行了留一交叉验证,负样本的构造方法与之前类似,得到的AUC值为0.7835,如图4所示.很明显,马毅等:基于HeteSim的疾病关联长非编码RNA预测3981
【参考文献】:
期刊论文
[1]动态蛋白质网络的构建、分析及应用研究进展[J]. 李敏,孟祥茂. 计算机研究与发展. 2017(06)
本文编号:3135991
本文链接:https://www.wllwen.com/yixuelunwen/shiyanyixue/3135991.html
最近更新
教材专著