基于因果定向的基因调控网络构建算法研究与实现
本文选题:基因调控网络 切入点:转录调控关系 出处:《哈尔滨工业大学》2014年硕士论文 论文类型:学位论文
【摘要】:基因调控网络构建和调控关系的发现对于研究物种转录调控机制具有重要意义,是能够促进生物信息学和系统生物学研究的一项重要工作。传统的实验验证方法耗费巨大,利用现有的基因表达谱数据和其它生物信息学数据,通过机器学习和统计学模型和方法构建基因调控网络,或者发现基因调控关系,能够有效减少实验验证的规模,对实验验证具有重要的指导作用。 基因的调控机制是复杂的,涉及生物体内各种分子之间的作用,对此,已有不少模型和方法用于构建调控网络和发现调控关系。本文结合最新的因果定向研究方法,提出基于因果定向的调控网络构建方法和调控网络关系预测方法,具体的研究内容如下: (1)综述目前的基因调控网络构建和调控关系预测模型和方法,分析构建基因调控网络和调控关系发现的主要问题:多因子调控和统计显著性,本文认为特征选择和监督学习可以有效的解决这些问题。 (2)介绍基于因果定向模型和方法,这些模型和方法可用于基因调控关系方向的确定,因果定向的这些研究方法也可以用于构建基因调控网络和调控关系的发现。 (3)受因果定向算法能够有效定向调控关系的启发,本文提出一个基于加性噪声模型的基因调控网络构建算法,用基于加性噪声的定向算法度量因果关系程度,该算法首先将加性噪声模型的因果定向算法扩展为是一个特征选择算法,通过建立调控因子集合与每个基因间的加性噪声模型来选择基因的调控因子。在DREAM5的三个数据集上,与其他算法进行比较效果有不错的提升。另外,设计和开发基于该算法的工具,用于筛选目标基因的候选因子,并将该结果可视化。 (4)监督学习方法能够根据已发现的数据训练预测模型,本文提出用一个监督学习的算法用于调控关系的预测,主要的工作是:生成反映基因表达谱的特征向量,利用正反例不平衡率抽取样本。我们采用随机森林算法训练调控关系预测模型,随机森林是一种优秀的分类算法,在其它类似问题上有很好的表现。最后,与非监督的构建算法CLR和监督算法SIRENE算法在DREAM5的三个数据集上进行比较,发现本文提出的监督算法优于CLR和SIRENE算法。
[Abstract]:The construction of gene regulatory networks and the discovery of regulatory relationships are of great significance to the study of the transcriptional regulation mechanism of species, which is an important work that can promote the research of bioinformatics and systems biology. Using existing gene expression profile data and other bioinformatics data, constructing gene regulatory networks through machine learning and statistical models and methods, or discovering gene regulation relationships, can effectively reduce the scale of experimental verification. It plays an important guiding role in experimental verification. The mechanism of gene regulation is complex and involves the interaction of various molecules in the organism. Many models and methods have been used to construct the regulatory network and to discover the regulatory relationship. This paper proposes a method to construct regulatory network based on causality orientation and a method to predict the relationship between regulatory and regulatory networks. The specific research contents are as follows:. 1) the current models and methods of gene regulation network construction and regulation relationship prediction are reviewed, and the main problems of gene regulation network construction and regulation relationship discovery are analyzed: multifactor regulation and statistical significance. This paper argues that feature selection and supervised learning can effectively solve these problems. This paper introduces the models and methods based on causality orientation, which can be used to determine the direction of gene regulation relationship, and these research methods of causality orientation can also be used to construct gene regulation network and to discover the regulation relationship. 3) inspired by the fact that the causal orientation algorithm can effectively orient the regulatory relationship, this paper proposes an algorithm for constructing gene regulatory networks based on additive noise model, which measures the degree of causality by using an additive noise-based orientation algorithm. The algorithm firstly extends the cause-and-effect orientation algorithm of additive noise model to a feature selection algorithm. The additive noise model between the set of regulatory factors and each gene is established to select the regulatory factors of genes. In addition, a tool based on this algorithm is designed and developed to screen candidate factors of target gene and visualize the result. 4) the supervised learning method can train the prediction model according to the discovered data. In this paper, a supervised learning algorithm is proposed to predict the regulatory relationship. The main work is to generate feature vectors reflecting the gene expression profile. We use the random forest algorithm to train the predictive model of the regulation relation. The stochastic forest is an excellent classification algorithm, and it has good performance on other similar problems. Compared with the unsupervised construction algorithm (CLR) and the supervised algorithm (SIRENE) on the three datasets of DREAM5, it is found that the proposed supervised algorithm is superior to the CLR and SIRENE algorithms.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP301.6;Q811.3
【共引文献】
相关期刊论文 前10条
1 罗万春;易东;刘恩;龚利红;;整数非线性规划模型在乳腺癌转移相关基因表达调控网络建立中的应用[J];北京生物医学工程;2008年02期
2 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
3 金志超;吴骋;高青斌;姜洋;贺佳;;基于时间序列表达数据基因调控网络模型的研究进展[J];第二军医大学学报;2008年09期
4 江宁;刘学武;刘文超;刘新平;;用比较基因组学方法分析人NDRG2的生物学功能[J];第四军医大学学报;2009年18期
5 党春艳;周继鹏;王桂香;李茹柳;高小玲;陈蔚文;;慢性胃炎脾虚证差异表达基因识别研究[J];广西师范大学学报(自然科学版);2009年03期
6 刘晓洁;吴家鑫;;贝叶斯网络在故障诊断中的应用[J];北京联合大学学报;2014年02期
7 李伟波;齐玉东;彭军;张光轶;;基于贝叶斯网络的导弹仿真数据分析方法研究[J];弹箭与制导学报;2014年02期
8 张继旺;马庆春;张来斌;;基于FTA-BN模型的城市燃气管道失效风险分析[J];北京石油化工学院学报;2014年03期
9 彭天昊;汤敏丽;唐型基;唐林海;;贝叶斯网在高校教学质量分析中的应用研究[J];计算机光盘软件与应用;2014年11期
10 聂桂军;王靖;王加俊;叶锡君;陈强;杨静宇;;基于微分的cDNA基因芯片图像自动划格算法[J];江南大学学报(自然科学版);2010年01期
相关博士学位论文 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
3 黎刚果;基因模块识别与分析相关问题研究[D];国防科学技术大学;2010年
4 祁云嵩;微阵列数据分析中的基因选择及样本分类方法研究[D];南京理工大学;2011年
5 郭懿;基于基因芯片的鼻咽癌研究[D];复旦大学;2009年
6 姚佳;孕酮与干扰素-τ对体外培养的牛子宫内膜细胞基因组表达谱的影响[D];四川农业大学;2011年
7 缑葵香;基于贝叶斯理论的基因调控网络建模研究[D];天津大学;2010年
8 荀鹏程;高维生物学数据分析中的几个统计问题[D];南京医科大学;2007年
9 许嘉;利用生物芯片技术检测转基因农作物[D];复旦大学;2007年
10 陈玉旺;基于极值动力学的自组织优化理论、算法与应用研究[D];上海交通大学;2008年
,本文编号:1618784
本文链接:https://www.wllwen.com/yixuelunwen/swyx/1618784.html