生物序列的相似性分析及k词模型研究
发布时间:2017-05-31 00:05
本文关键词:生物序列的相似性分析及k词模型研究,,由笔耕文化传播整理发布。
【摘要】:伴随着科学技术的迅猛发展,同时人类基因工程计划(Human Genome Projec, HGP)也已经进行了全面实施,人们所获得的生物序列数据与日俱增,生物学的研究重点也逐步从积累数据过渡到分析解释这些数据。这其中蕴含着丰富的生物信息,能将它们管理好并从中提取尽可能多的信息是一项有意义的工作,因而很多数学家、生物学家和计算机科学家等多个领域的研究者都被吸引到生物信息这个新的交叉学科中来。而生物序列的比较是其中最重要、最基本的内容之一,因为很多其它的研究工作,像分子进化问题、蛋白质结构预测问题和基因识别问题等都是建立在上述工作的基础上。序列比对(sequence alignment)是分析生物序列的传统方法,而限于该分析方法自身存在的一些缺陷,非比对(alignment-free)方法作为其补充和改进而出现,并迅速发展成为计算分子生物学的研究热点之一。在此以DNA序列、蛋白质序列作为本文的研究对象,在图形表示和k词模型的基础上,提出了生物序列的一些新的非比对模型,并进行了相似性分析和进化树的构建。主要工作有以下几个方面:首先,在考虑到核苷酸化学结构分类的基础上,将已有的混沌游走表达(Chaos Game Representation,CGR)模型进行了改进,首次构建了DNA序列的三种CGR空间,得到了CGR-游走的数值序列,并提取了DNA序列的特征不变量。作为应用,对九个不同物种β基因外显子做了相似性分析,取得了较好的效果。我们的方法一方面可以作为DNA序列图形表示的有效补充,另一方面也可以视为CGR结果的改进。在该模型中首次将碱基的生物化学性质考虑进来,且图形表示直观,不变量易于计算,并且通过与已有的模型分析比较,我们的方法得到的结果更接近已知的生物事实,所以能够包含更丰富的生物信息。接下来,我们基于氨基酸的详细疏水-亲水(Hydrophilic-Hydrophobic,HP)模型,提出了蛋白质序列的双向量曲线(Dual Vector Curve,DV-Curve)表达方式,它是利用两个向量来表达蛋白质序列的一个氨基酸字符。通过建立数学模型,给出了DV-曲线表达和蛋白质序列之间的一一对应关系。这种图形表示不仅避免了退化性问题,而且对于长的序列也有着较好的可视化效果,并且曲线本身可以反映序列的长度。作为应用,一方面以不同物种的ND6蛋白质序列为例,利用它们的DV曲线进行了直观的图形相似性分析。另一方面,为了便于对蛋白质序列进行量化比较,构建了24维的特征向量,利用欧氏距离度量得到相似性矩阵,并构建了35条S结构蛋白的进化树。本文是首次将DV-Curve方法和详细的HP模型结合起来描述氨基酸序列,结果显示该模型对生物序列有着较好的刻画能力。在第五章中,我们提出了一种新的k词(k-word)模型来分析生物序列。由于在进化的过程中会存在碱基突变,当给出新的k词概率分布时需要去掉随机背景,最终得到了表征DNA序列的4k维的特征向量,并以48个HEV戊型肝炎病毒基因序列和26种胎盘哺乳动物线粒体的全基因组序列为例进行了分析,取得了较为满意的效果,并对字符串k的最优取值问题进行了探讨。
【关键词】:DNA序列 混沌游走表达 相似性分析 序列比对 非序列比对 蛋白质序列 双向量曲线表达 图形表示模型 k词分布 概率模型 进化树
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q811.4
【目录】:
- 摘要7-9
- 英文摘要9-11
- 第一章 绪论11-19
- §1.1 生物信息学研究背景介绍11-12
- §1.2 生物信息学研究对象12-15
- §1.3 生物信息学研究内容15-16
- §1.4 本文的主要工作16-19
- 第二章 生物序列的相似性比较19-31
- §2.1 引言19
- §2.2 生物序列的比较19-31
- §2.2.1 序列比对方法(Sequence Alignment)19-21
- §2.2.2 非序列比对方法(Free Sequence Alignment)21-31
- 第三章 DNA序列的CGR图形表示模型31-43
- §3.1 引言31-32
- §3.2 CGR简介32-36
- §3.2.1 混沌游戏(The Chaos Game)介绍32-33
- §3.2.2 DNA序列的混沌游走表达(Chaos Game Representation)33-34
- §3.2.3 改进的CGR空间34-35
- §3.2.4 CGR游走数值序列35-36
- §3.3 DNA序列的数值特征36-38
- §3.4 九个不同物种的β-基因外显子序列的相似性分析38-41
- §3.4.1 相似性分析38-39
- §3.4.2 与其他结果对比39-41
- §3.5 总结和讨论41-43
- 第四章 基于DV-Curve表达的蛋白质序列分析和应用43-57
- §4.1 引言43
- §4.2 蛋白质序列的DV-Curve表达43-47
- §4.2.1 蛋白质序列分类43-45
- §4.2.2 蛋白质序列的图形表达45-47
- §4.3 蛋白质序列的数值特征47-48
- §4.4 应用48-57
- §4.4.1 基于蛋白质DV-Curve直观图形的相似性分析48-52
- §4.4.2 基于冠状病毒的系统发育树分析52-57
- 第五章 基于k-tuple分布的DNA序列的概率模型57-77
- §5.1 引言57-58
- §5.2 模型建立58-62
- §5.2.1 基本概念和背景介绍58-59
- §5.2.2 构建特征向量59-60
- §5.2.3 度量方法60-62
- §5.3 结果讨论62-72
- §5.3.1 进化树构建62-71
- §5.3.2 背景分析71-72
- §5.4 结束语72-77
- 参考文献77-86
- 致谢86-87
- 攻读博士学位期间完成论文情况87-88
- 附件88
【参考文献】
中国期刊全文数据库 前1条
1 John SONG;;Protein sequence analysis based on hydropathy profile of amino acids[J];Journal of Zhejiang University-Science B(Biomedicine & Biotechnology);2012年02期
中国硕士学位论文全文数据库 前1条
1 吴霞;蛋白质序列比较中的图形表示及其相似性分析[D];大连理工大学;2004年
本文关键词:生物序列的相似性分析及k词模型研究,由笔耕文化传播整理发布。
本文编号:408197
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/408197.html