基于改进型SVM的基因调控网络构建及Spark实现
本文关键词: 基因调控网络 改进型支持向量机 Spark 转录因子对 出处:《天津理工大学》2017年硕士论文 论文类型:学位论文
【摘要】:在生物信息学中,基因调控网络的研究与构建是一个至关重要的课题,了解基因表达的调控机制,对于人们认识生物学过程以及疾病的发生机制都起到了重要的作用。同时,微阵列技术的不断发展与日益完善,为基因调控网络的研究提供了强有力的数据保证和技术支撑。在基因调控网络的研究中,机器学习方法和Spark大数据开发平台的结合已经成为解决基因调控网络构建问题的有效手段。对于处理生物基因序列这样海量的数据,传统的基因鉴别技术存在成本昂贵、原理复杂、重复性差、时间周期长等诸多缺陷,远远不能满足现代化研究的需求。此时,使用机器学习方法和Spark大数据开发平台的有机结合来对生物数据进行数据挖掘操作已经成为生物信息学研究的一种新方法。本文主要就是利用改进型支持向量机方法和Spark大数据开发平台,并结合已知的转录因子数据,用于解决生物信息学全基因组中预测建立基因调控网络的问题。本文建立了基于改进型支持向量机的基因调控网络模型,并用建立的模型去预测ATGen Express数据库中的拟南芥的转录因子对,其识别率高达93%,还预测了一些未知的转录关系。与此同时,将建立的基因调控网络模型部署到Spark大数据处理平台上,实验结果表明,其实验周期与以往的单机模式相比,提高了大约7倍。本文通过对转录因子序列的所做的有效的数据处理操作,并结合改进型支持向量机技术和Spark大数据开发平台,取得的预测结果从准确率和时间效率上都超过以往一些微分方程或聚类分析算法的运行结果。在未来,通过构建的完善的基因调控网络,人们可以清楚地知道哪个或哪些基因的共同作用是治疗某种疾病的根源,从而为相关疾病的诊疗找到了理论支持。
[Abstract]:In bioinformatics, the research and construction of gene regulatory network is a crucial issue. Understanding the regulatory mechanism of gene expression plays an important role in understanding the biological process and the pathogenesis of disease. The continuous development and improvement of microarray technology provide strong data guarantee and technical support for the research of gene regulatory network. The combination of machine learning method and Spark big data development platform has become an effective means to solve the problem of gene regulation network construction. The principles are complex, the repeatability is poor, the time cycle is long, and many other defects, such as far from meeting the needs of modern research. At this time, Using the organic combination of machine learning method and Spark big data development platform to mine biological data has become a new method of bioinformatics research. This paper mainly uses improved support vector machine. Method and Spark big data development platform, Combined with the known transcription factor data, it is used to solve the problem of predicting gene regulation network in the whole genome of bioinformatics. In this paper, a gene regulation network model based on improved support vector machine (SVM) is established. The model was established to predict transcription factor pairs in Arabidopsis thaliana in the ATGen Express database, and the recognition rate was as high as 93%, and some unknown transcriptional relationships were predicted. The model of gene regulation network is deployed to the Spark big data processing platform. The experimental results show that the experimental cycle is compared with the previous single-machine model. Through the effective data processing operation of transcription factor sequence, combined with the improved support vector machine technology and Spark big data development platform, The predicted results are higher in accuracy and time efficiency than those of some previous differential equations or cluster analysis algorithms. In the future, through the construction of a perfect gene regulatory network, It is clear which or which genes work together to cure the root cause of a disease, thus providing theoretical support for the diagnosis and treatment of related diseases.
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q78;TP18
【相似文献】
相关期刊论文 前10条
1 易东,杨梦苏,李辉智,黄明辉,王文昌;相关分析在建立基因调控网络中的应用[J];中国卫生统计;2003年03期
2 张家军;蔡传政;王翼飞;;基因调控网络中的延滞动力学[J];应用科学学报;2007年01期
3 郭子龙;纪兆华;涂华伟;梁艳春;;基因调控网络的研究内容及其数据分析方法[J];电脑知识与技术;2008年15期
4 陈少白;罗嘉;;一类基因调控网络的定性分析[J];南京信息工程大学学报(自然科学版);2010年05期
5 李庆伟;全俊龙;刘欣;;基因调控网络研究进展[J];辽宁师范大学学报(自然科学版);2013年01期
6 叶纬明;吕彬彬;赵琛;狄增如;;少节点基因调控网络的控制[J];物理学报;2013年01期
7 王沛;吕金虎;;基因调控网络的控制:机遇与挑战[J];自动化学报;2013年12期
8 易东,李辉智;基因调控网络研究与数学模型的建立[J];中国现代医学杂志;2003年24期
9 雷耀山,史定华,王翼飞;基因调控网络的生物信息学研究[J];自然杂志;2004年01期
10 姜伟;李霞;郭政;李传星;王丽虹;饶绍奇;;时间延迟基因调控网络重构的决策树方法研究[J];中国科学(C辑:生命科学);2005年06期
相关会议论文 前3条
1 熊江辉;李莹辉;;基因芯片数据分析的新方法与基因调控网络推理[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
2 王亚丽;周彤;;大规模基因调控网络因果关系的辨识[A];第二十九届中国控制会议论文集[C];2010年
3 冯晶;许勇;李娟娟;;非高斯噪声激励下基因调控网络的研究[A];第十四届全国非线性振动暨第十一届全国非线性动力学和运动稳定性学术会议摘要集与会议议程[C];2013年
相关重要报纸文章 前1条
1 吴佳s,
本文编号:1499784
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1499784.html