基于典型相关分析的APA基因聚类研究
发布时间:2020-08-27 16:30
【摘要】:多聚腺苷化(poly(A),Polyadenylation)是mRNA成熟的必要过程,对真核生物的基因表达起重要的调控作用。多聚腺苷化过程中进行剪切的位置为poly(A)位点,基因中不同poly(A)位点的选择被称为选择性多聚腺苷化(APA,Alternative polyadenylation),基因通过APA产生不同的转录本异构体,增加了转录组和蛋白质组的复杂性和多样性。随着测序技术的快速发展和运用,产生了越来越多的poly(A)位点数据,而对高通量poly(A)位点数据进行聚类分析,是一种常见且重要的分析手段。通过对APA基因进行聚类分析,可以辅助探索APA调控的基因表达、识别APA调控下的共表达基因集、分析基因表达差异以及预测未知基因的功能。而目前对APA基因的聚类分析是基于基因整体表达水平进行的,采用累加基因上所有poly(A)位点表达量的方式,来得到基因的整体表达水平。本文在APA基因的聚类分析中,考虑APA特异性,提出基于典型相关分析(CCA,canonical correlation analysis)和层次聚类(Hierarchical Clustering)结合的分析方法。该分析方法主要包含三个步骤:1结合基因的APA位点分布和丰度信息,利用典型相关分析来量化APA基因之间的相关性;2利用层次聚类来划分显著相关的基因集,识别不同基因集中的关键基因;3对基因集进行同源性评价,验证聚类效果。同时采用并行框架设计,将所提方法开发了一个R软件包PAcluster,以网站形式公开供相关生物学家和研究人员使用。本文将所提方法主要应用于水稻(Oryza sativa japonica MSU7)的poly(A)位点数据集分析上,并对所得聚类结果与基于皮尔森相关系数、闵可夫斯基距离的聚类结果进行综合比较,结果表明所提方法得到的基因集其同源性程度更高,且显著提高了聚类效果,具有较好的鲁棒性。另外所开发R软件包PAcluster简单易用且计算时间短,可免费下载使用(http://bmi.xmu.edu.cn/software/)。本文的研究工作,有利于辅助生物学家研究APA调控的基因表达。相关方法和R包等内容已发表在JCR国际期刊J Bioinform Comput Biol上。
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:Q811.4
【图文】:
制各种性状,与生命体的生老病死等现象都息息相关。基因控制各种不同性状的逡逑过程就是基因表达的过程。基因表达的过程遵循中心法则,遗传信息在基因表达逡逑中的传递过程如图1-1所示,依次从DNA到RNA,最后到蛋白质。DNA到RNA逡逑需要进行转录,RNA到蛋白质需要进行翻译。逡逑t产逦翻译逡逑DNA和邋*邋C邋RNA邋逦?蛋白质逡逑逆转录邋\逡逑图1-1中心法则图解逡逑基因转录后变成mRNA,真核生物mRNA的结构示意图如图1-2所示。成逡逑熟的mRNA可以指导蛋白质的合成,这种可供编码蛋白质的成熟mRNA被称之逡逑为转录本,转录本又称之为剪切体。逡逑编码区(CDS)逡逑S'逦?逦?逦3'逡逑Cap邋|邋5-UTR邋gg邋BfelM邋lntf0n逦Intron邋^逦 ̄邋Jl逡逑图1-2真核生物_八的结果示意图逡逑转录过程中,基因通过内含子的不同剪接可以构成不同的转录本,从而使得逡逑一个基因通常拥有不止一个转录本。转录本的组成是编码区(CDS,Coding逡逑Sequence)、非翻译区(UTR,Untranslated邋Region)、甲基化鸟嗓呤核苷酸帽和多逡逑聚腺苷酸尾巴。其中
第四章APA基因聚类分析方法的应用与结果分析逡逑(3)层次聚类分析,得到聚类结果逡逑基于步骤二得到的距离矩阵,采用层次聚类算法,对APA基因进行聚类,逡逑划分具有显著相关性的基因集;逡逑(4)聚类结果评价逡逑采用稳定性指标AD和FOM,以及生物同源性指标BHI,对APA基因的类结果进行评价。逡逑为了生物学家们能更便捷地使用该分析方法,本文将该分析方法开发成一简单易用的邋R邋软件包,PAcluster。将其发布在邋http://bmi.xmu.edu.cn/software/上,逡逑供相关人员下载使用。图4-1是PAduster软件包的下载页面。逡逑
4-3是PAcluster和RSeqNet这两个R包的计算时间对比图。对于基因数目小于逡逑500的数据集,采用并行或非并行框架下的PAcluster,其计算速度比RSeqNet逡逑快得多,如图4-3邋(a)所示。需要说明的是,图4-3中的曲线是以对数坐标表示,逡逑因此PAcluster和RSeqNet的实际计算时间差异更大。逡逑iaaJ-A-逦RSeqNetesomaled逡逑Iv/U'邋^逦h逦^—邋PACCA(-Parallel)逦逦0逡逑S邋
本文编号:2806342
【学位授予单位】:厦门大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:Q811.4
【图文】:
制各种性状,与生命体的生老病死等现象都息息相关。基因控制各种不同性状的逡逑过程就是基因表达的过程。基因表达的过程遵循中心法则,遗传信息在基因表达逡逑中的传递过程如图1-1所示,依次从DNA到RNA,最后到蛋白质。DNA到RNA逡逑需要进行转录,RNA到蛋白质需要进行翻译。逡逑t产逦翻译逡逑DNA和邋*邋C邋RNA邋逦?蛋白质逡逑逆转录邋\逡逑图1-1中心法则图解逡逑基因转录后变成mRNA,真核生物mRNA的结构示意图如图1-2所示。成逡逑熟的mRNA可以指导蛋白质的合成,这种可供编码蛋白质的成熟mRNA被称之逡逑为转录本,转录本又称之为剪切体。逡逑编码区(CDS)逡逑S'逦?逦?逦3'逡逑Cap邋|邋5-UTR邋gg邋BfelM邋lntf0n逦Intron邋^逦 ̄邋Jl逡逑图1-2真核生物_八的结果示意图逡逑转录过程中,基因通过内含子的不同剪接可以构成不同的转录本,从而使得逡逑一个基因通常拥有不止一个转录本。转录本的组成是编码区(CDS,Coding逡逑Sequence)、非翻译区(UTR,Untranslated邋Region)、甲基化鸟嗓呤核苷酸帽和多逡逑聚腺苷酸尾巴。其中
第四章APA基因聚类分析方法的应用与结果分析逡逑(3)层次聚类分析,得到聚类结果逡逑基于步骤二得到的距离矩阵,采用层次聚类算法,对APA基因进行聚类,逡逑划分具有显著相关性的基因集;逡逑(4)聚类结果评价逡逑采用稳定性指标AD和FOM,以及生物同源性指标BHI,对APA基因的类结果进行评价。逡逑为了生物学家们能更便捷地使用该分析方法,本文将该分析方法开发成一简单易用的邋R邋软件包,PAcluster。将其发布在邋http://bmi.xmu.edu.cn/software/上,逡逑供相关人员下载使用。图4-1是PAduster软件包的下载页面。逡逑
4-3是PAcluster和RSeqNet这两个R包的计算时间对比图。对于基因数目小于逡逑500的数据集,采用并行或非并行框架下的PAcluster,其计算速度比RSeqNet逡逑快得多,如图4-3邋(a)所示。需要说明的是,图4-3中的曲线是以对数坐标表示,逡逑因此PAcluster和RSeqNet的实际计算时间差异更大。逡逑iaaJ-A-逦RSeqNetesomaled逡逑Iv/U'邋^逦h逦^—邋PACCA(-Parallel)逦逦0逡逑S邋
【参考文献】
相关期刊论文 前5条
1 赵屹;谷瑞升;杜生明;;生物信息学研究现状及发展趋势[J];医学信息学杂志;2012年05期
2 张敏;戈文航;;双聚类的研究与进展[J];微型机与应用;2012年04期
3 欧阳玉梅;;基因表达数据聚类分析技术及其软件工具[J];生物信息学;2010年02期
4 吴斌;沈自尹;;基因芯片表达谱数据的预处理分析[J];中国生物化学与分子生物学报;2006年04期
5 黄科,曹家树,吴秋云,温庆放;生物信息学[J];情报学报;2002年04期
相关硕士学位论文 前2条
1 安平;基因表达数据的双聚类分析方法研究[D];苏州大学;2013年
2 刘昊;基于聚类算法的生物分析软件的设计与实现[D];复旦大学;2013年
本文编号:2806342
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2806342.html
最近更新
教材专著