当前位置:主页 > 社科论文 > 图书档案论文 >

整合基因-癌症关联、网络、序列和功能属性利用机器学习方法预测癌症候选基因的研究

发布时间:2020-03-25 20:00
【摘要】:目的:癌症是一类由多种基因改变引起的复杂疾病,癌症基因在癌症的发生发展中起着至关重要的作用,但目前已知的癌症基因只占到人类基因组的2%,还有大量的癌症基因至今没有被发现。由于传统的实验方法发现癌症基因费时费力,因此本研究采用机器学习方法建立癌症候选基因预测模型,旨在为进一步了解癌症的发病机制和开发有效的癌症治疗手段提供参考。方法:从OpenTargets数据库筛选基因-癌症关联及基因通路、遗传关联、动物模型、RNA表达等变量,同时从DIP、HPRD、BIOGRID数据库下载蛋白质相互作用数据,采用CytoScape构建PPI网络并计算网络拓扑属性;从Uniprot数据库下载蛋白质序列信息,采用PROFEAT计算蛋白质序列结构和理化特征;从GO和KEGG数据库获取基因富集的GO术语和KEGG通路,整合基因上述四方面的特征,以CGC数据库中已知的癌症基因为结局变量,进行变量筛选和不平衡数据处理后,采用五种机器学习方法(RF、GBM、SVM、ANNs及NaiveBayes)预测潜在的癌症基因,将预测结果在CBioPortal数据库中进行验证,并以基因BLK和结肠癌为例进行具体分析。结果:模型最终纳入62个变量,其中PPI网络拓扑属性的重要性最大,且癌症基因与非癌症基因在平均路径长度、点度中心度、CNR、氨基酸组成、二肽组成以及GO和KEGG富集方面的分布有很大的差异。在上述四方面变量组成的15个模型中,模型PPI+OpenTargets+Sequence+Function性能在五种算法中均达到最佳,五种算法的AUC均值达到0.885,预测得到20种潜在的癌症基因,其在不同的癌症组织中均具有一定程度的突变和扩增。结论:本研究从多个权威生物医学数据库获取基因的多种属性,使用五种机器学习算法预测癌症候选基因,结果验证显示预测效果良好,进一步揭示了整合基因-癌症关联属性、PPI网络拓扑属性、序列属性和功能属性等多方面信息,应用机器学习方法预测癌症候选基因的可行性,可以为癌症基因的发现及癌症的基因治疗提供参考。
【图文】:

流程图,集成学习,流程图,癌症


7图 2.2 组合采样+集成学习流程图2.3 数据收集及预处理2.3.1 基因-癌症关联属性①从 OpenTargets 数据库(https://www.targetvalidation.org/downloads/data)

算法,集成学习,基模型,训练集


中国医科大学硕士学位论文2.4.2 集成学习集成学习,就是通过将多个单一学习器组合在一起,使它们共同完成学习任务。目前有三种常见的集成学习框架,分别为:Bagging、Boosting 和 Stacking,本研究主要采用前两种集成学习算法:(1)Bagging:从训练集中采用 Bootstrap 进行子抽样,组成每个基模型所需要的子训练集,,对所有基模型预测结果进行综合产生最终的预测结果,Bagging算法的基本思想如图 2.3 所示:
【学位授予单位】:中国医科大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R73-3;G353.1

【相似文献】

相关期刊论文 前10条

1 刘唯;陈键;杨子林;;重症监护病房老年患者感染嗜麦芽寡养单胞菌整合基因调查及耐药性分析[J];实用预防医学;2019年05期

2 潘奇;李萌;钱凤翠;汤治东;赵越;王秋毓;李春权;;整合基因的拷贝数与表达信息识别胶质瘤风险通路区域内的生存标志物[J];癌变·畸变·突变;2017年01期

3 吴家睿;;建立在系统生物学基础上的精准医学[J];生命科学;2015年05期

4 刘晓菊;;备考生物科技发展,整合基因工程与相关知识[J];教学考试;2017年15期

5 张素芝;左建儒;;拟南芥开花时间调控的研究进展[J];生物化学与生物物理进展;2006年04期

6 于军;;“人类基因组计划”回顾与展望:从基因组生物学到精准医学[J];自然杂志;2013年05期

7 陈廷,刘昌平,王家英;人类巨细胞病毒感染与免疫[J];济宁医学院学报;1993年03期

8 王玉芝;用反义核酸研究正常造血的基因调控[J];实验血液学杂志;1995年01期

9 孙标;李向阳;;PIM与消化系统肿瘤[J];东南国防医药;2012年04期

10 廖志琴;程华;李琳玲;程水源;;高等植物花发育的分子生物学研究[J];黄冈师范学院学报;2013年03期

相关会议论文 前2条

1 张晶;殷明;;基因芯片结合整合基因网络筛选辐射损伤后恢复相关基因的研究[A];全国第十二届生化与分子药理学学术会议论文集[C];2011年

2 朱坤举;张学军;杨森;;全基因组关联分析(GWAS)基因通路研究和基因—基因、基因—环境交互作用研究[A];中华医学会第16次全国皮肤性病学术年会摘要集[C];2010年

相关硕士学位论文 前5条

1 范馨月;整合基因-癌症关联、网络、序列和功能属性利用机器学习方法预测癌症候选基因的研究[D];中国医科大学;2019年

2 王涛;杀念菌素高产菌株的构建[D];内蒙古农业大学;2009年

3 王魏强;基于基因表达谱识别人类疾病相关基因和功能[D];华中科技大学;2006年

4 孙婉;DNA assembler技术在顺,顺—己二烯二酸和Siderophere生物合成中的应用[D];北京协和医学院;2015年

5 黄春敏;整合基因扩增提高高温α-淀粉酶生产水平[D];江南大学;2011年



本文编号:2600370

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2600370.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99824***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com