负相关的基因表达模式及其保守性研究
本文关键词:负相关的基因表达模式及其保守性研究,由笔耕文化传播整理发布。
【摘要】:基因表达数据提供了大量基因表达的信息,这些为理解生命的本质起着重要作用。基因表达数据常见的处理方法包括识别差异表达的基因,聚类,双向聚类和构建基因调控网络等等。尽管用这些方法也能够挖掘出隐藏在基因表达数据里面的部分信息,但所获得的信息相对而言还是较少,例如在癌症的研究中,虽然使用了许多先进的方法,数据和手段来研究这些疾病,如癌症和肿瘤基因图谱(TCGA)数据库等等,但是当前对付癌症依旧没有较好的策略,这表明研究者对相关疾病还没有获得全部的生物信息,需要反思当前这些方法存在的问题。在基因表达数据中,绝大部分基因的表达是没有明显变化的,只有很少的一部分基因是差异表达的。在这些差异表达的基因中,有一部分基因的表达是上调的,另外一部分基因是下调的,这些上调基因与下调基因是否存在关联?如果基因集V的两个子集V1和V2在部分实验条件或时间点中具有相反的表达趋势,而且每个子集之内的基因都具有相似的表达趋势,那么就说子集V1和子集V2是一个负相关表达模式,简称负相关模式,如果这个负相关模式在其他多个数据集中也存在,那么就说这个负相关模式是保守的(不变的)。基因表达谱中的负相关模式很少有学者进行深入系统探索。针对这些问题,本论文尝试从负相关的思路出发,对基因表达数据中上调和下调基因之间的这种相反变化趋势,结合生物信息学的方法和生物学的理论,从以下几个不同方面进行深入系统的探讨。其主要研究内容和结果如下:(1)设计识别负相关模式的算法:①设计了基于形式概念分析技术的负相关双向聚类算法(NCFCA算法),通过与其他算法比较表明,NCFCA算法在平均平衡率,平均皮尔森相关系数和聚类得分方面均优于其他算法,能更多地识别出数目平衡的负相关模式。②为了能处理较大的基因表达数据,本文利用CPU的多核并行技术,设计了基于形式概念分析技术的并行负相关双向聚类算法(NCFCA2算法),与NCFCA算法比较,NCFCA2算法在运行时间方面均大大优于以前的NCFCA算法。(2)三个不同数据集中负相关模式及其保守性(不变性)研究:①将NCFCA算法应用于酵母菌细胞周期的alpha 26,alpha 30和alpha 38三个时间过程的数据集,选取这三个数据集中的800个细胞周期调控基因通过分析处理之后发现:微小染色体维持蛋白基因与核心组蛋白基因会形成负相关模式,而且这个负相关模式均发现于alpha 26,alpha 30和alpha 38三个数据集。传统的观点认为,负相关的两组基因一般来说没有功能上的相似性,然而将这两组基因一起做基因集富集分析之后发现,它们表达相反的基因之间也具有显著的功能相似性,这就表明参与同一生物学过程的两组基因也可能具有相反的表达趋势。将ncfca算法应用于酵母菌10个其它细胞周期过程的表达数据之后发现,在这10个数据集中也发现微小染色体维持蛋白基因与核心组蛋白基因也能形成负相关模式。同时在最近出版的两个高精度瓦片测序的基因数据集中也证实了这一观点。这些发现表明这两组基因形成的负相关模式可能是保守的。进一步分析它们的调控关系表明:这两组基因形成保守的负相关模式的主要原因很可能是由clb-cdk1激酶是通过一个共调控和一个负调控来实现的,clb-cdk1是在细胞周期过程的不同时期上调或下调这两组基因的表达。②将ncfca2算法应用于酵母菌的2010.shapira04和gse26169这两个氧化应激响应数据集,从这两个数据集中各自选取所有通路基因的表达数据进行分析之后发现:淀粉和蔗糖代谢通路中的部分基因和嘌呤代谢通路中的部分基因的表达曲线也是负相关的。也就是说,在环境应激响应数据中两组通路的基因也会形成负相关模式。将ncfca2算法应用于酵母菌10个其它环境应激响应数据集中分析之后发现,这两条通路中的部分基因也会形成负相关模式。这些发现表明这两条通路基因之间的负相关模式可能是保守的。通过研究它们的生物学调控关系表明,这两条通路形成保守的负相关模式的原因很可能是由雷帕霉素受体复合物1(torc1)在蛋白酶体的辅助下是通过一个共调控和一个负调控来实现的。③将ncfca2算法应用于酵母菌的热休克响应和氧化应激响应的表达数据集,将这两个数据集中基因的表达值按照方差由大到小排序,通过分别选取这两个数据集中排名前1000的基因进行分析之后,发现核糖体蛋白基因与热休克响应基因;核糖体蛋白基因与氧化应激响应基因的表达曲线均是负相关的。将ncfca2算法应用于酵母菌其它的环境应激响应数据集中分析之后发现,在这些数据集中核糖体蛋白基因和其它环境应激响应的基因也能形成负相关模式。这些发现表明这个负相关模式可能是保守的。进一步研究它们的生物学调控关系表明,核糖体蛋白基因与不同环境应激响应基因形成的负相关模式,很可能也是由雷帕霉素受体复合物1(torc1)在蛋白酶体的辅助下也是通过一个共调控和一个负调控共同作用,调控核糖体蛋白基因与环境应激响应基因的表达来实现的。综合以上研究结果,表明ncfca算法和ncfca2算法能用较少的时间和空间花费,有效地识别基因表达数据中的负相关模式,特别是识别数目平衡的负相关模式。这些负相关模式经过信息冗余过滤和基因集富集分析之后,发现只有少量负相关模式是具有功能显著性,比如核糖体蛋白基因与环境应激响应基因,而且这些负相关模式可能是保守的(不变的)。进一步研究发现这些保守的负相关模式可能是由一个关键的调控子通过一个共调控和一个负调控共同作用形成的。这些说明,生物系统可能会在各个子系统内部协调上调基因与下调基因之间的表达关系。从能量的角度来讲,生物系统可能会在各个子系统中协调能量供求的平衡关系,以达到新的平衡点。
【关键词】:负相关模式 保守性 细胞周期 应激响应 酵母菌
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q811.4
【目录】:
- 中文摘要3-6
- 英文摘要6-13
- 主要略缩词13-14
- 1 绪论14-28
- 1.1 问题的提出及研究意义14-15
- 1.2 国内外现状15-26
- 1.2.1 负相关模式的发现15-18
- 1.2.2 负相关模式识别算法18-19
- 1.2.3 相关的算法和技术研究现状19-26
- 1.3 研究思路及主要研究内容26-27
- 1.3.1 研究思路26
- 1.3.2 主要研究内容26-27
- 1.4 本文的创新点27-28
- 2 基于改进形式概念分析技术的负相关双向聚类算法28-44
- 2.1 前言28-29
- 2.2 负相关模式相关概念介绍29-30
- 2.2.1 基因表达数据描述29
- 2.2.2 负相关模式的正式定义29
- 2.2.3 形式概念分析介绍29-30
- 2.3 基于改进的形式概念分析技术的负相关双向聚类算法(NCFCA算法)30-32
- 2.3.1 NCFCA算法的伪代码30-31
- 2.3.2 NCFCA算法的详细描述31-32
- 2.4 NCFCA算法与其他算法的比较32-39
- 2.4.1 数据集32-33
- 2.4.2 负相关算法与其他算法的比较和评估33-39
- 2.5 基于并行技术的负相关双向聚类算法(NCFCA2算法)39-41
- 2.5.1 PCbO算法的主要思想39
- 2.5.2 基于并行技术的负相关双向聚类算法的伪代码39-40
- 2.5.3 NCFCA2算法的性能40-41
- 2.6 讨论41-42
- 2.7 小结42-44
- 3 酵母菌中细胞周期调控基因的负相关模式及其保守性研究44-58
- 3.1 前言44
- 3.2 数据44-46
- 3.2.1 三个基因表达数据集44
- 3.2.2 基因表达数据的提取和预处理44
- 3.2.3 NCFCA2算法应用于三个数据集44-46
- 3.3 负相关模式的生物信息学分析46-51
- 3.3.1 核心组蛋白(histone)基因的功能富集分析46-47
- 3.3.2 微小维持蛋白复合物(MCM)基因的功能富集分析47-49
- 3.3.3 联合微小维持蛋白复合物基因和核心组蛋白基因的功能富集分析49-51
- 3.4 负相关模式的保守性(不变性)探索51-53
- 3.5 讨论53-57
- 3.5.1 微小染色体维持蛋白复合物基因53-54
- 3.5.2 核心组蛋白基因54
- 3.5.3 Clb-Cdk1的调控可能是微小维持蛋白复合物基因和核心组蛋白基因形成负相关模式保守性的原因54-56
- 3.5.4 微小维持蛋白复合物基因和核心组蛋白基因具有相似的功能56-57
- 3.6 小结57-58
- 4 酵母菌中通路基因的负相关模式及其保守性研究58-80
- 4.1 前言58
- 4.2 数据和方法58-60
- 4.2.1 两个基因表达数据58
- 4.2.2 基因表达数据的提取和预处理58-59
- 4.2.3 NCFCA2算法应用于上述两个数据集59-60
- 4.3 两个负相关模式的生物信息学分析60-72
- 4.4 保守性(不变性)探索72-76
- 4.5 讨论76-79
- 4.5.1 淀粉和蔗糖代谢通路基因76-77
- 4.5.2 嘌呤代谢通路基因77
- 4.5.3 TORC1的调控可能是淀粉和蔗糖代谢通路基因与嘌呤代谢通路基因形成保守负相关模式的原因77-79
- 4.5.4 通路基因中负相关模式的数目79
- 4.6 小结79-80
- 5 酵母菌应激响应数据中显著变化基因的负相关模式及其保守性研究80-104
- 5.1 前言80
- 5.2 数据和方法80-83
- 5.2.1 两个基因表达数据80-81
- 5.2.2 基因表达数据的提取和预处理81
- 5.2.3 NCFCA2算法应用于这两个数据集81-83
- 5.3 负相关模式的生物信息学分析83-96
- 5.4 保守性(不变性)探索96-98
- 5.5 讨论98-102
- 5.5.1 应激响应基因98-99
- 5.5.2 核糖体蛋白基因99
- 5.5.3 TORC1的调控可能是核糖体蛋白基因与应激响应基因形成保守负相关模式的原因99-101
- 5.5.4 TORC1在环境应激响应中的作用101-102
- 5.6 小结102-104
- 6 主要结论104-108
- 6.1 主要结论104-106
- 6.2 展望106-108
- 致谢108-110
- 参考文献110-128
- 附录128
- A. 作者在攻读学位期间发表的论文目录128
- B. 作者在攻读学位期间参加的科研项目目录128
【相似文献】
中国期刊全文数据库 前3条
1 张立新,闻继威;弱负相关随机场的两个强收敛定理[J];高校应用数学学报A辑(中文版);2000年03期
2 吴群英;负相关随机序列的收敛性质[J];广西科学;2000年02期
3 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 钱铁云;冯小年;王元珍;;超越支持度-置信度框架的负相关对规则挖掘[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前7条
1 中信银行金融市场部 胡明;美元与大宗商品负相关将延续[N];中国证券报;2013年
2 本报见习记者 马爽;11家未设营业部期货公司去年亏27.48万元 营业部数量与盈利负相关[N];证券日报;2012年
3 记者 朱周良;打破“负相关”传统 美元与美股比翼齐飞[N];上海证券报;2013年
4 记者 叶苗 编辑 杨晓坤;避险情绪转为看好经济前景 美元商品“负相关弱化”或成主旋律[N];上海证券报;2010年
5 金水;短期看国际油价与股市负相关[N];华夏时报;2008年
6 本报记者 朱周良;美元与美股的负相关或暂告段落[N];上海证券报;2009年
7 白洋 编译;全要素生产率与劳动时间负相关[N];中国社会科学报;2013年
中国博士学位论文全文数据库 前1条
1 涂旭东;负相关的基因表达模式及其保守性研究[D];重庆大学;2015年
中国硕士学位论文全文数据库 前3条
1 庄莹莹;负相关序列的收敛性[D];哈尔滨工业大学;2009年
2 张淑侠;负相关加权和的收敛性[D];哈尔滨工业大学;2011年
3 林超;负相关模拟电路的演化模型研究[D];中国科学技术大学;2014年
本文关键词:负相关的基因表达模式及其保守性研究,,由笔耕文化传播整理发布。
本文编号:394250
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/394250.html