当前位置:主页 > 硕博论文 > 农业硕士论文 >

基于重叠社区发现算法的大豆基因表达数据分析

发布时间:2018-01-12 18:23

  本文关键词:基于重叠社区发现算法的大豆基因表达数据分析 出处:《吉林大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 基因表达数据 差异表达分析 复杂网络 重叠社区 功能富集分析


【摘要】:基因微阵列技术和RNA-Seq技术快速成熟发展,已经获得了大量物种的基因表达数据。基因表达数据反映的是生物细胞在某一时刻的基因转录水平,蕴含着细胞在不同环境下的分子活动信息。大豆是一种重要的农作物,有学者利用微阵列技术对其做了许多研究,获得了大量珍贵的基因表达谱数据。分析大豆基因表达数据中隐含的生物学信息,对于大豆抗病性研究,改良农作物品种具有重要意义。常见的基因表达数据分析方法有差异表达分析、分类以及聚类分析等。聚类算法属于无监督学习算法,已被广泛应用于基因表达数据分析领域,可以借助聚类算法对基因表达数据做一些探索性分析。基因往往通过相互作用形成一些社区结构来表达某一生物功能,具有这种社区结构的基因被称作共表达基因,通过聚类找到这些基因具有重要的意义。近年来,复杂网络的社区发现算法取得了很大进展。可以通过计算基因之间的相似度,构造出基因表达网络,把聚类问题转换成社区发现问题。研究证明,一个基因往往会参与不止一个生物功能,不同类的共表达基因相互重叠,传统的聚类算法如k-means、层次聚类等都不能发现这种重叠结构,模糊聚类算法可以识别这种重叠现象,但其参数太多不易设置,性能较低,不适用于大数据集。针对基因表达数据中的这种重叠现象,可以利用重叠社区发现算法来研究。Speak Easy算法是典型的重叠社区发现算法之一,该算法是一种同时采用自顶向下与自底向上策略的标签传播算法,在对节点进行划分的时候不止考虑其所在局部子图的信息,还要考虑整体网络结构信息。Speak Easy算法具有以下优点:可以自动预测社区数目,无需人为设定参数;适用于多种网络图;算法运行速度快。但在实验过程中,发现Speak Easy在识别重叠节点经常出现重叠节点所占比重过大的不合理现象。针对这一缺陷,我们提出了改进的Speak Easy重叠节点识别算法,并通过实验证明了改进算法的有效性。本文选择GEO数据库中GPL4592平台下的大豆锈病相关的基因表达数据,首先,根据基因表达数据分析流程,对其进行预处理并筛选出7971个差异表达基因。其次,选用皮尔森相关系数来衡量基因之间的相似性程度,构造出了大豆差异表达基因的加权网络图G(V,E)。之后,采用改进的Speak Easy算法实现了对图G的社区划分。最后,用DAVID在线分析工具对社区划分结果进行了功能富集分析。分析发现,社区S3内的基因主要调控黄酮类化合物的合成,黄酮类化合物含量上升有助于提高植物抗病性;社区S2内的基因调控大豆细胞的响应刺激;还有些社区内的基因调控叶绿素的合成,调控光合作用过程,有的社区内的基因主要参与调控大豆基因的转录表达。将我们的分析结果与已有文献对照,分析了大豆锈病的病理,同时发现在锈病影响下,大豆细胞会做出一些防御,比如黄酮类和芳香类化合物含量上升,细胞壁增厚增强。总结起来,本文的主要工作有三点:首先对数据进行预处理,并找出差异表达基因;其次改进了Speak Easy重叠社区识别算法,并采用改进的算法对差异基因进行了社区划分;对划分结果采用DAVID方法进行了富集分析,并对重点基因或基因集合进行了KEGG映射和GO分析。本文对于了解锈病病菌影响大豆生长的机理,进一步分析锈病胁迫下大豆的防御反应具有一定的帮助,也有助于大豆抗病性的研究。
[Abstract]:Gene microarray technology and RNA-Seq technology rapid development and mature, has received a large number of species of gene expression data. Gene expression data reflect the gene transcription level of biological cells at a given time, contains the molecular activity of cells in different environments. Soybean is an important crop, have done a lot of researches on the study on the use of microarray technology, get a lot of valuable biological information of gene expression data. The implicit analysis of soybean gene expression data, for the study on disease resistance of soybean, improved crop varieties is of great significance. The common analysis methods of gene expression data with differential expression analysis, classification and clustering analysis. Clustering algorithm is an unsupervised learning algorithm has been widely used in the analysis of gene expression data, can use the clustering algorithm for gene expression data to do some exploratory points Analysis of genes through interaction. Often the formation of some community structure to express a biological function, with the community structure of the gene is called co expression genes, these genes found by clustering is of great significance. In recent years, the complex network community discovery algorithm has made great progress. By calculating the similarity between genes, construct gene expression network, the clustering problem is converted into a community discovery problem. Studies have shown that a gene are involved in more than one biological function, overlapping gene co expression of different types, such as clustering of traditional K-means algorithm, hierarchical clustering can find overlapping structure of the fuzzy clustering algorithm, can identify the overlapping. But it is not easy to set up too many parameters, performance is relatively low, is not suitable for large data sets. In view of this gene expression data in the overlap phenomenon, can use the overlapping agency To study the.Speak Easy algorithm is one of the typical algorithms found overlapping community discovery algorithm, this algorithm is a kind of top-down and bottom-up and label propagation algorithm on strategy, not only consider the local map information in time division of the node, but also to consider the overall network structure information of the.Speak Easy algorithm has the following advantages: it can automatically predict the number of communities, there is no need to set the parameters; and is applicable to a variety of network diagram; the algorithm is fast. But in the course of the experiment found that Speak Easy in the identification of overlapping nodes often overlapping nodes proportion unreasonable phenomenon. To solve this problem, we propose an improved Speak Easy overlapping nodes recognition algorithm, and the effectiveness of the improved algorithm is proved by the experiment. This paper chooses GPL4592 platform in the GEO database under the soybean rust genes number According to, first, according to the data analysis process of gene expression, the pretreatment and screened 7971 differentially expressed genes. Secondly, using Pearson correlation coefficient to measure the degree of similarity between genes, construct the weighted network diagram of G gene expression in Soybean (V, E). The difference after using Speak Easy algorithm the improved implementation of G community division. Finally, the tool for functional enrichment analysis on community division results online by DAVID analysis. The result showed that the main regulation of flavonoid synthesis genes within the S3 community, and increased the content of flavonoids is helpful to improve plant disease resistance; gene regulation of soybean cells in response to stimulation the community in S2; also some chlorophyll synthesis gene regulation within the community, the regulation of photosynthesis, transcription of some genes in the community is mainly involved in the regulation of soybean gene. We will analysis The results were compared with the existing literature, analysis of the pathology of soybean rust, also found in the rust under the influence of soybean cells will make some defense, such as the increase of flavonoids and phenolic compounds content, cell wall thickening enhancement. To sum up, the main work of this paper has three points: first, preprocess data, and find out the differential expression secondly, the improvement of Speak Easy gene; overlapping community recognition algorithm, and the differential genes by community division using the improved algorithm; the results of the partitioning DAVID method using the enrichment analysis, and focused on the gene or gene sets were analyzed with KEGG mapping and GO. In this paper, for the understanding of the mechanism of rust effect of soybean growth, further analysis rust stress defense response of Soybean under certain help, also contribute to the resistance of soybean.

【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:S565.1;Q811.4

【相似文献】

相关期刊论文 前2条

1 陈佳妮;段文英;丁徽;;模糊C-均值聚类分析在基因表达数据分析中的应用[J];森林工程;2010年02期

2 刘天飞;唐国庆;李学伟;;不同实验类型的基因表达数据聚类分析方法研究[J];畜牧兽医学报;2009年02期

相关会议论文 前1条

1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

相关博士学位论文 前8条

1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年

2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年

3 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年

4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年

5 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年

6 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年

7 张琛;基因芯片数据处理与分析方法研究[D];吉林大学;2011年

8 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年

相关硕士学位论文 前10条

1 李科;EMD去噪算法研究及其在结肠癌基因表达数据集中的应用[D];陕西师范大学;2015年

2 田小龙;基于智能优化计算的双聚类算法研究[D];西安电子科技大学;2014年

3 晋飞鸣;基于ELM的肿瘤基因表达数据分类算法研究[D];东北大学;2013年

4 严晶;基因表达数据的合并双向聚类算法[D];湘潭大学;2015年

5 周静;一种基于多维基因组数据的基因功能模块的识别方法[D];黑龙江大学;2015年

6 高雪峰;膜计算在基因表达数据分析中的应用[D];西华大学;2015年

7 陈辉辉;基于基因表达数据的信息基因选择研究[D];山东大学;2016年

8 梁妍;基于多目标的基因表达数据双聚类算法的研究[D];广西大学;2016年

9 李晓丹;基于基因表达数据的癌症特征基因选择方法研究[D];北京工业大学;2016年

10 席艳秋;基因表达数据的双向聚类算法的研究[D];扬州大学;2011年



本文编号:1415438

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/zaizhiyanjiusheng/1415438.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4372***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com