基于约束线性编码的lncRNA与疾病关联预测
发布时间:2021-06-13 02:41
长非编码RNA(lncRNA)在很长的一段时间内都被科学家认为是细胞遗传过程中的翻译杂质,然而,近年来的研究表明它在许多疾病的发生过程中都起到了重要作用。研究人员希望通过分析lncRNA与疾病的关系来揭示疾病的发生和发展,并制定相关的有效治疗方法。传统生物学实验方法验证lncRNA与疾病之间关系非常耗时且昂贵。因此需要有效的方法寻找出潜在的lncRNA与疾病的关系,以便更明确的进行相关的生物实验。事实上,为了改善这个情况,许多的生物信息学家创建了预测lncRNA与疾病的关联关系模型。这些模型可以有效的预测出与疾病潜在的最相关的某几种lncRNA,便于生物实验学家更专注的研究这几种lncRNA与疾病的关联。这些模型的预测能力已经取得不错的效果,但是随着对lncRNA和疾病的深入研究,越来越多的相关信息数据能加入到预测模型的创建中,以此提高模型的精准度。在本文应用局部约束线性编码(LLC)和标签传播(LP)方法创建了一种叫LLCLPLDA的lncRNA与疾病预测模型。本文主要的研究内容包含以下几点:(1)从相关数据库中下载并构建模型所需要的数据,包括已知的lncRNA与疾病的关联关系,ln...
【文章来源】:广东工业大学广东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
生物遗传中心法则Figure11BiologicalGeneticCenterRules
广东工业大学硕士学位论文17全部K次实验才算完成一次K折交叉验证。然后把这K次实验分别获得的结果进行平均算术计算,最后获得的结果就是这一次K折交叉验证的结果。但是在将数据集进行平均时,会存在多种划分的情况,为了避免特殊性的出现,实际上在对模型评估时会进行多次K折交叉验证,然后得到的平均结果才作为模型的最终结果。因为K折交叉验证本身在划分数据时可能出现不同的划分结果导致最终结果不同的局限性,所以本会也会使用第二种交叉验证——留一交叉验证(Leave-one-outCrossValidation,LOOCV)进行模型的评估,实际上它是第一种交叉验证的特殊形式。即当N=K。因为当N=K时,不管怎么分,数据集最终的结果都是只有一个数据当一个测试集对模型进行测试,所以它不存在划分数据集不同而结果不同的情况,那么明显留一交叉验证获得的结果就是最接近真实值的结果。当然,留一交叉验证也有一定的局限性。因为有多少数据就要进行多少次实验,所以当数据集个数N比较大时,对模型进行一次留一交叉验证所需要的时间会很长,并且根据以往的经验留一交叉验证的结果跟K=5或K=10的交叉验证的结果相差不大,但是时间成本却相对大了许多。图21K折交叉验证Figure21K-foldcross-validation2.4本章小结本章主要介绍了创建模型所要的相关背景知识,为下一章介绍模型进行知识储备。在第一小节介绍了数据的收集和预处理的方法,数据集的有效性是确保模型是否又意义的前提,因此对于数据的收集和处理是前期工作的重点。第二小节分别介绍了现在常用的四种计算疾病相似性和四种lncRNA相似性的方法,其中本文中使用的相似性方法将在第三章具体介绍。第三小节介绍了模型评估的方法,主要是全局留一交叉验证和五折交叉验证。
第三章基于局部约束线性编码方法的lncRNA-疾病关联关系预测18第三章基于局部约束线性编码方法的lncRNA-疾病关联关系预测伴随着研究人员对lncRNA的深入研究,人们认识到lncRNA在疾病的发展过程起到至关重要的作用。因此为了帮助实验生物学家加快对lncRNA与疾病的研究,事实上,也有许多的预测模型被开发出来,并且也在一定程度上取得到了比较好的效果。本文也通过收集相关数据,计算lncRNA和疾病相似性,并基于相似的疾病与类似的lncRNA相关的假设创建了LLCLPLDA的新型预测模型。随后针对模型的缺点,对模型进行了改进,命名为LLCLPLDA-II。3.1模型创建创建模型之前,需要想明白模型解决的问题和解决的思路。通过前文知道模型的目的是获得潜在的与疾病最相关的某些lncRNA。由于是两个物质之间的关系预测,因此可以借鉴推荐系统的模式解决。解决的思路大致为利用疾病和lncRNA的相似性对疾病推荐相关的lncRNA。如图31所示。右边表示已知的lncRNA与疾病的关联关系,相似的疾病和相似的lncRNA,左边表示通过算法获得的疾病与lncRNA的潜在关联关系(红色虚线)。可以发现疾病1与疾病3相似,疾病3又与lncRNA1和4相关,所以通过算法可以预测出疾病1与lncRNA4存在潜在关系,同理由于lncRNA1与4相似,而4与疾病5相关,故疾病5跟lncRNA1存在潜在关系。图31简易的模型Figure31Simplemodelstructure
【参考文献】:
期刊论文
[1]长链非编码RNA的作用机制及其研究方法[J]. 夏天,肖丙秀,郭俊明. 遗传. 2013(03)
[2]生物信息学[J]. 陈润生. 生物物理学报. 1999(01)
本文编号:3226823
【文章来源】:广东工业大学广东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
生物遗传中心法则Figure11BiologicalGeneticCenterRules
广东工业大学硕士学位论文17全部K次实验才算完成一次K折交叉验证。然后把这K次实验分别获得的结果进行平均算术计算,最后获得的结果就是这一次K折交叉验证的结果。但是在将数据集进行平均时,会存在多种划分的情况,为了避免特殊性的出现,实际上在对模型评估时会进行多次K折交叉验证,然后得到的平均结果才作为模型的最终结果。因为K折交叉验证本身在划分数据时可能出现不同的划分结果导致最终结果不同的局限性,所以本会也会使用第二种交叉验证——留一交叉验证(Leave-one-outCrossValidation,LOOCV)进行模型的评估,实际上它是第一种交叉验证的特殊形式。即当N=K。因为当N=K时,不管怎么分,数据集最终的结果都是只有一个数据当一个测试集对模型进行测试,所以它不存在划分数据集不同而结果不同的情况,那么明显留一交叉验证获得的结果就是最接近真实值的结果。当然,留一交叉验证也有一定的局限性。因为有多少数据就要进行多少次实验,所以当数据集个数N比较大时,对模型进行一次留一交叉验证所需要的时间会很长,并且根据以往的经验留一交叉验证的结果跟K=5或K=10的交叉验证的结果相差不大,但是时间成本却相对大了许多。图21K折交叉验证Figure21K-foldcross-validation2.4本章小结本章主要介绍了创建模型所要的相关背景知识,为下一章介绍模型进行知识储备。在第一小节介绍了数据的收集和预处理的方法,数据集的有效性是确保模型是否又意义的前提,因此对于数据的收集和处理是前期工作的重点。第二小节分别介绍了现在常用的四种计算疾病相似性和四种lncRNA相似性的方法,其中本文中使用的相似性方法将在第三章具体介绍。第三小节介绍了模型评估的方法,主要是全局留一交叉验证和五折交叉验证。
第三章基于局部约束线性编码方法的lncRNA-疾病关联关系预测18第三章基于局部约束线性编码方法的lncRNA-疾病关联关系预测伴随着研究人员对lncRNA的深入研究,人们认识到lncRNA在疾病的发展过程起到至关重要的作用。因此为了帮助实验生物学家加快对lncRNA与疾病的研究,事实上,也有许多的预测模型被开发出来,并且也在一定程度上取得到了比较好的效果。本文也通过收集相关数据,计算lncRNA和疾病相似性,并基于相似的疾病与类似的lncRNA相关的假设创建了LLCLPLDA的新型预测模型。随后针对模型的缺点,对模型进行了改进,命名为LLCLPLDA-II。3.1模型创建创建模型之前,需要想明白模型解决的问题和解决的思路。通过前文知道模型的目的是获得潜在的与疾病最相关的某些lncRNA。由于是两个物质之间的关系预测,因此可以借鉴推荐系统的模式解决。解决的思路大致为利用疾病和lncRNA的相似性对疾病推荐相关的lncRNA。如图31所示。右边表示已知的lncRNA与疾病的关联关系,相似的疾病和相似的lncRNA,左边表示通过算法获得的疾病与lncRNA的潜在关联关系(红色虚线)。可以发现疾病1与疾病3相似,疾病3又与lncRNA1和4相关,所以通过算法可以预测出疾病1与lncRNA4存在潜在关系,同理由于lncRNA1与4相似,而4与疾病5相关,故疾病5跟lncRNA1存在潜在关系。图31简易的模型Figure31Simplemodelstructure
【参考文献】:
期刊论文
[1]长链非编码RNA的作用机制及其研究方法[J]. 夏天,肖丙秀,郭俊明. 遗传. 2013(03)
[2]生物信息学[J]. 陈润生. 生物物理学报. 1999(01)
本文编号:3226823
本文链接:https://www.wllwen.com/projectlw/swxlw/3226823.html