当前位置:主页 > 科技论文 > 自动化论文 >

基于异构网络拓扑数据的人类必需基因预测算法研究

发布时间:2020-12-12 21:27
  全基因组研究表明,基因组中有一小部分基因对于有机体的生存和繁殖不可缺少,这些基因被称为必需基因。必需基因对于维持生物体的生存和发育至关重要,如被敲除,将会导致其死亡或者不孕不育。对人类必需基因的识别不仅能够了解人类生存和繁殖的最低要求而且有助于寻找人类疾病基因和新的药物靶点。目前对必需基因的研究主要有两种方法,即实验方法和计算方法。实验方法预测必需基因虽有效但价格昂贵且耗时费力,开发高效的计算方法预测必需基因是对实验方法必要且有效的补充。传统的计算方法常以单一特征指标对人类必需基因进行预测,预测精度普遍不高。本文在充分利用已有的多种预测必需基因网络的基础上,提出了整合异构网络拓扑数据的思想,将多个异构网络通过重启动随机游走算法融合成一新网络。它充分考虑了基因在不同网络间的各种关联程度。实验结果表明整合异构网络拓扑数据方法比基于单一网络的预测模型能更准确地预测人类必需基因。本文主要从两阶段来介绍人类必需基因的预测。第一阶段是数据的前期收集与处理。在本阶段,首先是从DEG数据库和STRIGN数据库分别获取到人类必需基因、具有基因拓扑结构的六种异构预测网络。其次,利用重启动随机游走算法有效融... 

【文章来源】:河北工业大学天津市 211工程院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于异构网络拓扑数据的人类必需基因预测算法研究


00维不同参综上所述,300维的最优参数对为C为确率为73.89%

惩罚因子,数据,核函数,效果图


河北工业大学硕士学位论文31据。惩罚因子C的取值范围是[2-2,22],相应的核函数参数g的取值范围是[2-3,20],测试了20次,其中基数为2,步长为1,效果图如图5.2(A)所示。从图5.2(A)中可以清晰的看到,在C取2,g取0.125时,取得最大正确率。进一步分析可以得知,在g一定时,惩罚因子C与正确率acc成正比;在C一定时,核函数g与正确率acc成反比。为了进一步寻优,保持C不变,将g的范围改为[2-6,2-3],效果图如图5.2(B)所示。由图5.2(B)可知,在g一定时,惩罚因子C与正确率acc之间存在波动性;在C一定时,核函数g与正确率acc之间也存在着波动性。继而,将惩罚因子C的范围改为[2-3,24],并且设置g的范围为[2-4,2-3],效果图如图5.2(C)所示。综合分析图5.2(A)、图5.2(B)和图5.2(C),大体可以观察到异构网络拓扑数据矩阵行维数为800维条件下最优参数对的五种可能即C为2,g为0.125;C为1,g为1/64;C为2,g为1/32;C为1/16,g为1/16;C为1/16,g为1/32。效果图如图5.2(D)所示。图5.2800维不同参数对对应的正确率综上所述,800维的数据在惩罚因子C为2,核函数g为0.125时取得最大正确率,最大正确率为69.99%。分析300维和800维测试效果,发现两者有共同之处,即起始的取值范围偏校ABCD

矩阵图,异构,网络拓扑,矩阵


基于异构网络拓扑数据的人类必需基因预测算法研究32所以,在测试100维(dimn100)数据时,我们直接将惩罚因子的范围设置为[2-2,26],相应的也将核函数参数g的范围设置为[2-6,20],共测试了63次,其中基数为2,步长为1,效果图如图5.3(A)所示。对图5.3(A)分析可知,在g一定时,惩罚因子C在[2-2,21]范围内与正确率acc成正比;惩罚因子C在[22,26]范围内与正确率acc成反比;在C一定时,核函数g在[2-6,2-3]范围内与正确率acc成正比;核函数g在[2-2,20]范围内与正确率acc成反比。总体看来,最优的参数对有六组,即C为2,g为1/32;C为0.25,g为1/8;C为0.25,g为1/16;C为2,g为1/64;C为2,g为1/16;C为0.5,g为0.125。测试这六组数据的效果图如图5.3(B)所示。图5.3100维不同参数对对应的正确率综上所述,异构网络拓扑数据矩阵行维数为100维的数据在惩罚因子C为0.5,核函数g为0.125时取得最大正确率,最大正确率为73.85%。对异构网络拓扑数据矩阵行维数为50维(dimn50)的数据也直接将惩罚因子C的范围设置为[2-2,26],相应的也将核函数的参数g的范围设置为[2-6,20],共测试了63次,其中基数为2,步长为1,效果图如图5.4(A)所示。对图5.4(A)分析可知,在g一定时,惩罚因子C在[2-2,22]范围内与正确率acc成正比;惩罚因子C在[23,26]范围内与正确率acc成反比;在C一定时,核函数g在[2-6,2-3]范围内与正确率acc成正比;核函数g在[2-2,20]时与正确率acc成反比。总体看来,最优的参数对有6组,即C为2,g为1/64;C为2,g为1/32;C为2,g为1/16;C为2,g为1/8;C为8,g为0.5;C为2,g为0.25;这6组的效果图如图5.4(B)所示。AB

【参考文献】:
期刊论文
[1]线粒体DNA异质性[J]. 巫小倩,张顺华,朱砺.  中国生物化学与分子生物学报. 2017(01)
[2]基于异构网络的标签传播算法预测药物靶点关系[J]. 闫效莺,康磊,李润洲.  计算机应用研究. 2017(04)
[3]利用CRISPR/Cas9n系统构建Asxl2基因敲除的NIH3T3稳定细胞系[J]. 方佳萍,赵秀娟,齐艳,王玺,吴旭东,娄建石.  天津医药. 2015(10)
[4]ROC曲线法评价三种不同方法在斜视术后立体视功能检测中应用[J]. 姚婕颖,封利霞.  中国实用眼科杂志. 2014 (09)
[5]随机森林理论浅析[J]. 董师师,黄哲学.  集成技术. 2013(01)
[6]SMOTE算法在不平衡数据中的应用[J]. 孙涛,吴海丰,梁志刚,贺文,张镭,吕平欣,郭秀花.  北京生物医学工程. 2012 (05)
[7]ROC曲线评价酶免法检测消化病患者幽门螺杆菌[J]. 王志红,曹建彪,闫伟.  科学技术与工程. 2011(12)
[8]改进支持向量机的商业银行评级算法[J]. 芮丽梅.  企业导报. 2011(03)
[9]SVM分类核函数及参数选择比较[J]. 奉国和.  计算机工程与应用. 2011(03)
[10]基于随机森林方法的基金收益率方向预测与交易策略研究[J]. 方匡南,朱建平,谢邦昌.  经济经纬. 2010(02)

博士论文
[1]基于支持向量机的赖氨酸翻译后修饰位点预测方法研究[D]. 鞠哲.大连理工大学 2016
[2]必需基因与复制起始点数据库的建立及分析[D]. 罗昊.天津大学 2016
[3]计算方法识别必要基因的研究[D]. 程健.西北农林科技大学 2014
[4]多维度多组分干预脑缺血药理机制的比较研究[D]. 陈寅萤.中国中医科学院 2013
[5]拟南芥和琴叶拟南芥中内含子丢失和突变率关系[D]. 杨宇飞.北京师范大学 2013
[6]支持向量机若干算法研究及应用[D]. 王朝勇.吉林大学 2008

硕士论文
[1]社交网络好友推荐算法研究与应用[D]. 周芝民.昆明理工大学 2016
[2]筛选必要基因预测的训练集及细菌致病菌药物靶点的识别[D]. 赵丽.西北农林科技大学 2015
[3]必要基因组功能和代谢途径的比较研究[D]. 张崟雯.西北农林科技大学 2013
[4]基于支持向量机的能源管理系统短期负荷预测[D]. 张鑫.长春工业大学 2010
[5]基于小波包和支持向量机的旋转机械故障诊断方法研究[D]. 陈丹玲.江西理工大学 2010
[6]比较分析大肠杆菌K-12中的必要基因与非必要基因[D]. 巩校东.西北农林科技大学 2007
[7]支持向量机中若干优化算法研究[D]. 邵小健.山东科技大学 2005



本文编号:2913303

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2913303.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户59cbe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com