基于机器学习的非编码RNA与疾病关系预测
发布时间:2020-12-20 06:37
MicroRNA(miRNA)和long non-coding RNA(lncRNA)是两种拥有不同转录本长度的非编码RNA。研究发现,miRNAs和lncRNAs都在人类许多生物学过程中扮演着重要角色,它们的失调可能导致诸如癌症等多种疾病,探究miRNAs、lncRNAs与疾病的潜在关联有助于了解疾病的发病机制,并及时做出诊断、治疗以及预后等措施。然而,传统的生物学实验成本高、耗时长,因此,开发有效的计算模型具有重要意义。机器学习方法在解决预测问题中有很多的应用。本文主要研究基于矩阵完成的计算模型预测miRNAs与疾病潜在关联以及基于网络算法的模型预测lncRNAs与疾病潜在关联。对于miRNAs与疾病关联的预测,借助lncRNAs与疾病的关联数据作为辅助信息,应用基于矩阵完成的方法进行预测。将从数据库下载的已知的miRNA-疾病关联数据以及lncRNA-疾病关联数据进行整合,然后构建映射网络,根据映射网络的不变性的性质构建负样本,最后以相似度作为边信息,将miRNA-疾病关系的预测转化为低秩矩阵完成问题,采用交替梯度下降法求解模型。5-fold交叉验证(5-fold CV)结果显示...
【文章来源】:海南师范大学海南省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
基于矩阵完成的预测miRNA与疾病关联流程图
海南师范大学硕士学位论文10383种疾病和495种miRNAs。2.2.2lncRNA与疾病关联本研究中使用的已知人类lncRNAs与疾病关联数据来源于lncRNADisease数据库[42]。通过对下载的数据进行整理和标准化,获得了352对经过实验验证的人类lncRNAs与疾病关联,涉及190种疾病和156种lncRNAs。2.2.3lncRNA+miRNA与疾病的关联通过合并lncRNA-疾病数据和miRNA-疾病关联数据,构建了一个关联网络。如图2-2所示,设NDA为其邻接矩阵,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR与疾病)(j相关,则jiNDA1=),(,否则jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,当与与疾病有关联,否则(2-1)将列中重复的疾病项合并后,最终得到651行535列的邻接矩阵。图2-2关联网络融合过程
第二章基于矩阵完成的miRNA与疾病关联预测15数据集,将其中1组用作预测的测试集合,并将其他K-1组用作训练数据以建立预测模型。重复此过程K次,并在所有样本都被预测一次后结束。2.6.2预测结果分析本章节使用5-fold交叉验证对矩阵完成算法进行评估,即K=5,根据不同的阈值,通过计算真阳性率(TPR,灵敏度)和假阳性率(FPR,1-特异性)绘制了ROC曲线进行性能评估。为了评估矩阵完成算法对于预测miRNAs与疾病潜在关联的性能,本小节对数据以及算法使用Matlab语言实现。秩r3,结果显示,当10.1,21,30.5时,AUC的值最大,此时AUC=0.8884。为了更好地评价基于矩阵完成的模型对于预测miRNAs与疾病潜在关联的性能,将其与近年来研究miRNAs与疾病关联的其他算法进行对比,分别是NCPMDA[47]和RLSMDA[15]。NCPMDA通过整合miRNAs功能相似网络、疾病语义相似网络、已知的miRNA-疾病关联以及miRNAs家族信息来计算每个miRNA-疾病节点对的得分,从而发现潜在的关联。用相同的数据集与验证方法对上述两种预测算法进行比较,绘制了三种方法的ROC曲线如图2-3所示:图2-3三种算法的ROC曲线对比图ROC曲线图显示,矩阵完成算法在预测miRNAs与疾病关联的性能方面有了明显提高。2.6.3案例研究
本文编号:2927392
【文章来源】:海南师范大学海南省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
基于矩阵完成的预测miRNA与疾病关联流程图
海南师范大学硕士学位论文10383种疾病和495种miRNAs。2.2.2lncRNA与疾病关联本研究中使用的已知人类lncRNAs与疾病关联数据来源于lncRNADisease数据库[42]。通过对下载的数据进行整理和标准化,获得了352对经过实验验证的人类lncRNAs与疾病关联,涉及190种疾病和156种lncRNAs。2.2.3lncRNA+miRNA与疾病的关联通过合并lncRNA-疾病数据和miRNA-疾病关联数据,构建了一个关联网络。如图2-2所示,设NDA为其邻接矩阵,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR与疾病)(j相关,则jiNDA1=),(,否则jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,当与与疾病有关联,否则(2-1)将列中重复的疾病项合并后,最终得到651行535列的邻接矩阵。图2-2关联网络融合过程
第二章基于矩阵完成的miRNA与疾病关联预测15数据集,将其中1组用作预测的测试集合,并将其他K-1组用作训练数据以建立预测模型。重复此过程K次,并在所有样本都被预测一次后结束。2.6.2预测结果分析本章节使用5-fold交叉验证对矩阵完成算法进行评估,即K=5,根据不同的阈值,通过计算真阳性率(TPR,灵敏度)和假阳性率(FPR,1-特异性)绘制了ROC曲线进行性能评估。为了评估矩阵完成算法对于预测miRNAs与疾病潜在关联的性能,本小节对数据以及算法使用Matlab语言实现。秩r3,结果显示,当10.1,21,30.5时,AUC的值最大,此时AUC=0.8884。为了更好地评价基于矩阵完成的模型对于预测miRNAs与疾病潜在关联的性能,将其与近年来研究miRNAs与疾病关联的其他算法进行对比,分别是NCPMDA[47]和RLSMDA[15]。NCPMDA通过整合miRNAs功能相似网络、疾病语义相似网络、已知的miRNA-疾病关联以及miRNAs家族信息来计算每个miRNA-疾病节点对的得分,从而发现潜在的关联。用相同的数据集与验证方法对上述两种预测算法进行比较,绘制了三种方法的ROC曲线如图2-3所示:图2-3三种算法的ROC曲线对比图ROC曲线图显示,矩阵完成算法在预测miRNAs与疾病关联的性能方面有了明显提高。2.6.3案例研究
本文编号:2927392
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2927392.html