基于数据驱动的非编码基因功能注释方法研究
发布时间:2017-08-27 03:34
本文关键词:基于数据驱动的非编码基因功能注释方法研究
【摘要】:广泛存在于公开数据库和零散文献中的海量生物芯片数据是认知生物遗传信息的“知识宝库”。这些数据由于实验背景、获取条件差异较大,通常情况下并不具有可比性;同时也因为缺乏可靠的数理分析工具,多数只是经过简单的差异统计即被搁置一旁。 本文围绕非编码基因及其功能鉴定方法,提出由不同的基因芯片数据驱动,借助计算方法建立联系,鉴定新的非编码基因、非编码持家基因。具体工作包括:首先从生物技术及计算预测两个层面对非编码基因的鉴定方法进行详细阐述,分析非编码基因的生物特征,包括核酸序列开放阅读框的长度、密码子偏好性、密码子替换频率、序列保守性、二级结构等,并论述了长非编码RNA的功能特异性;其次本文提出了一种基于编码、非编码双色共表达网络的非编码基因功能预测方法,将此方法用于Affymertrix公司所生产的Human Genome U133A芯片,在25,000个探针中重注释了1,120个非编码基因并对这些基因的功能做出预测;最后,为了使更多来自于不同生物背景的芯片数据具有可比性,本文提出一种基于傅立叶分析的非编码持家基因预测方法,运用该方法在基于Human Genome U133A芯片的人类Hela细胞时序芯片中预测了510个持家基因,其中包括93个非编码持家基因。对比实验证明本文方法可覆盖已有3个公开报道的阳性数据集,计算方法具有准确性、鲁棒性,,生物学结论可靠。 本文所提出的网络模型和预测算法可以较好解决当前的非编码基因的鉴定与功能注释问题,对其他领域相似数据分析也有借鉴意义。
【关键词】:基因 非编码RNA 功能预测 分类算法
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 提要5-6
- 摘要6-8
- Abstract8-15
- 第1章 绪论15-27
- 1.1 研究背景15-19
- 1.1.1 人类基因组计划15-16
- 1.1.2 DNA 原件百科全书16-17
- 1.1.3 非编码 RNA17
- 1.1.4 长非编码 RNA17-19
- 1.2 国内外研究现状19-23
- 1.2.1 基于数据驱动的生物网络构造19-21
- 1.2.2 生物网络与非编码基因功能研究21-22
- 1.2.3 疾病相关非编码基因研究22-23
- 1.3 研究内容及意义23-24
- 1.4 论文组织结构24-27
- 第2章 非编码基因特征研究27-41
- 2.1 引言27-28
- 2.2 非编码基因生物统计特征分析28-34
- 2.2.1 lncRNA 平面构象28-31
- 2.2.2 lncRNA 密码子替换频率31-32
- 2.2.3 lncRNA 核苷酸三聚体分布32-33
- 2.2.4 lncRNA 序列保守性分析33
- 2.2.5 lncRNA 开放读码框特征33-34
- 2.3 LNCRNA 功能特异性分析34-36
- 2.4 鉴定 RNA36-38
- 2.4.1 发现新的 lncRNA36-37
- 2.4.2 lncRNA 与 mRNA 区别37-38
- 2.5 非编码基因数据库38-39
- 2.6 本章小结39-41
- 第3章 基于数据驱动的编码基因功能注释41-63
- 3.1 生物芯片非编码基因重注释41-48
- 3.1.1 HG-U133A 芯片平台41
- 3.1.2 芯片探针定义重注释41-44
- 3.1.3 HG U133A 重注释结果与分析44-48
- 3.2 非编码基因功能预测48-54
- 3.2.1 芯片数据数据预处理48-49
- 3.2.2 构建共表达网络49-53
- 3.2.3 功能预测53-54
- 3.3 算法性能评价54-57
- 3.3.1 随机网络对比实验54
- 3.3.2 预测精确度、特异性54-57
- 3.4 人类非编码基因功能预测结果及分析57-60
- 3.5 本章小结60-63
- 第4章 基于傅立叶分析的非编码持家基因鉴定63-81
- 4.1 引言63
- 4.2 傅立叶谱构造63-67
- 4.2.1 基因表达时序数据选择64-65
- 4.2.2 时序数据预处理65-67
- 4.3 鉴定持家基因67-69
- 4.3.1 持家基因样本分类67-68
- 4.3.2 识别和提取 HKG 谱的特征信息68-69
- 4.4 持家基因鉴定结果69-71
- 4.5 预测性能分析71-76
- 4.5.1 利用组织表达谱评价预测性能73-74
- 4.5.2 验证 HKG 预测结果与评价74-76
- 4.6 预测结果分析76-78
- 4.7 本章小结78-81
- 第5章 总结与展望81-83
- 5.1 论文工作总结81-82
- 5.2 未来工作方向82-83
- 参考文献83-95
- 作者简介及在学期间所取得的科研成果95-96
- 致谢96
【参考文献】
中国期刊全文数据库 前6条
1 刘伟;李栋;朱云平;贺福初;;信号转导网络的生物信息学分析[J];中国科学(C辑:生命科学);2008年11期
2 孙景春,徐晋麟,李亦学,石铁流;大规模蛋白质相互作用数据的分析与应用[J];科学通报;2005年19期
3 刘中扬;李栋;朱云平;贺福初;;蛋白质相互作用网络进化分析研究进展[J];生物化学与生物物理进展;2009年01期
4 关薇;王建;贺福初;;大规模蛋白质相互作用研究方法进展[J];生命科学;2006年05期
5 李梢;张学工;季梁;李衍达;;复杂性疾病生物信息学研究的策略与方法[J];世界华人消化杂志;2003年10期
6 MOTULSKY Arno G.;;Genetics of complex diseases[J];Journal of Zhejiang University Science;2006年02期
本文编号:744190
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/744190.html