基于层次聚类的生物序列结构分析
发布时间:2021-09-06 20:59
生物序列是计算生物学中的一个重要研究对象,主要包含DNA序列和蛋白质序列等。生物序列中隐藏着生物的遗传信息,其发现与研究在生物学、医学、药学等领域上都有重要意义。为了挖掘生物序列中的遗传信息,需要对序列结构进行分析。层次聚类作为一种经典的生物序列结构分析方法,可用于获得不同生物序列之间的相似性关系,进而分析序列的功能,研究其中隐藏的遗传信息。本文研究的是生物序列的一级结构,主要利用各种数值映射方法构造生物序列的特征向量,并基于特征向量对生物序列作结构分析,然后研究生物序列之间的相关关系并预测序列功能,最后讨论其生物学意义。研究中主要使用层次聚类对序列作结构分析,同时结合使用了DNA分段、方差分析和分组讨论等方法,并将处于DNA编码区的p53家族基因和非编码区的DNase I高敏位点(DNase I hypersensitive sites,DHSs)作为研究对象,具体工作为:1、研究p53家族基因的进化差异性。提取24条p53家族的DNA序列作为研究对象,利用混沌游走表示的方法将DNA序列映射为平面直角坐标系中的点列,然后构造8维加权特征向量来描述DNA序列。结合DNA分段和方差分析等...
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 计算生物学简介
1.1.1 计算生物学的概念及其背景
1.1.2 计算生物学的研究内容
1.1.3 计算生物学的研究现状和发展趋势
1.2 生物序列
1.2.1 P53家族
1.2.2 DNase Ⅰ高敏位点
1.3 本论文的主要研究内容
第二章 编码区p53家族基因的进化差异性分析
2.1 CGR方法的研究简介
2.2 数据与方法
2.2.1 数据来源
2.2.2 CGR方法
2.2.3 加权特征向量
2.2.4 组内精度和分组优度
2.3 结果与讨论
2.3.1 原始方法下p53 家族DNA序列的差异性分析
2.3.2 改进方法下p53 家族DNA序列的差异性分析
2.4 本章小结
第三章 编码区p53家族基因的三周期性及其分步聚类分析
3.1 三周期性研究概况
3.2 数据与方法
3.2.1 数据来源
3.2.2 Voss映射
3.2.3 DFT方法
3.2.4 三周期性强度
3.2.5 分步聚类分析
3.3 结果与讨论
3.3.1 P53家族基因的三周期性分析
3.3.2 P53家族基因的分步聚类分析
3.4 本章小结
第四章 非编码区DHSs的结构分析及其预测算法
4.1 数据与方法
4.1.1 数据来源
4.1.2 PseTNC方法
4.1.3 分组分类算法
4.1.4 加权欧式距离
4.1.5 性能评估
4.2 结果与讨论
4.2.1 参数优化
4.2.2 特征分析
4.2.3 交叉验证与结果比较
4.3 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
附录:作者在攻读硕士学位期间发表的论文及参加的学术活动
【参考文献】:
期刊论文
[1]生物学新兴前沿学科——计算生物学[J]. 梁丹,薄文浩,姜立波. 中国林业教育. 2017(S1)
[2]外显子周期性探究及自适应识别快速算法研究[J]. 佟庆英,熊小峰,刘松华. 数学的实践与认识. 2015(04)
[3]P53基因三周期性与密码子偏好性的相关性[J]. 王其强,谈承杰,朱平. 物理学报. 2014(04)
[4]P53基因蛋白质序列的相似性及其聚类分析[J]. 仇建烨,朱平. 计算机与应用化学. 2013(09)
[5]外显子周期三行为特征的研究[J]. 田元新,陈超,邹小勇,邱建丁,蔡沛祥,莫金垣. 化学学报. 2005(13)
[6]人类基因组计划与后基因组时代[J]. 骆建新,郑崛村,马用信,张思仲. 中国生物工程杂志. 2003(11)
[7]不具有3-碱基周期性的编码序列初探[J]. 张静,石秀凡. 生物化学与生物物理进展. 2002(02)
硕士论文
[1]拟南芥WRKY基因家族的进化研究[D]. 郝博济.天津大学 2014
本文编号:3388165
【文章来源】:江南大学江苏省 211工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 计算生物学简介
1.1.1 计算生物学的概念及其背景
1.1.2 计算生物学的研究内容
1.1.3 计算生物学的研究现状和发展趋势
1.2 生物序列
1.2.1 P53家族
1.2.2 DNase Ⅰ高敏位点
1.3 本论文的主要研究内容
第二章 编码区p53家族基因的进化差异性分析
2.1 CGR方法的研究简介
2.2 数据与方法
2.2.1 数据来源
2.2.2 CGR方法
2.2.3 加权特征向量
2.2.4 组内精度和分组优度
2.3 结果与讨论
2.3.1 原始方法下p53 家族DNA序列的差异性分析
2.3.2 改进方法下p53 家族DNA序列的差异性分析
2.4 本章小结
第三章 编码区p53家族基因的三周期性及其分步聚类分析
3.1 三周期性研究概况
3.2 数据与方法
3.2.1 数据来源
3.2.2 Voss映射
3.2.3 DFT方法
3.2.4 三周期性强度
3.2.5 分步聚类分析
3.3 结果与讨论
3.3.1 P53家族基因的三周期性分析
3.3.2 P53家族基因的分步聚类分析
3.4 本章小结
第四章 非编码区DHSs的结构分析及其预测算法
4.1 数据与方法
4.1.1 数据来源
4.1.2 PseTNC方法
4.1.3 分组分类算法
4.1.4 加权欧式距离
4.1.5 性能评估
4.2 结果与讨论
4.2.1 参数优化
4.2.2 特征分析
4.2.3 交叉验证与结果比较
4.3 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
附录:作者在攻读硕士学位期间发表的论文及参加的学术活动
【参考文献】:
期刊论文
[1]生物学新兴前沿学科——计算生物学[J]. 梁丹,薄文浩,姜立波. 中国林业教育. 2017(S1)
[2]外显子周期性探究及自适应识别快速算法研究[J]. 佟庆英,熊小峰,刘松华. 数学的实践与认识. 2015(04)
[3]P53基因三周期性与密码子偏好性的相关性[J]. 王其强,谈承杰,朱平. 物理学报. 2014(04)
[4]P53基因蛋白质序列的相似性及其聚类分析[J]. 仇建烨,朱平. 计算机与应用化学. 2013(09)
[5]外显子周期三行为特征的研究[J]. 田元新,陈超,邹小勇,邱建丁,蔡沛祥,莫金垣. 化学学报. 2005(13)
[6]人类基因组计划与后基因组时代[J]. 骆建新,郑崛村,马用信,张思仲. 中国生物工程杂志. 2003(11)
[7]不具有3-碱基周期性的编码序列初探[J]. 张静,石秀凡. 生物化学与生物物理进展. 2002(02)
硕士论文
[1]拟南芥WRKY基因家族的进化研究[D]. 郝博济.天津大学 2014
本文编号:3388165
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3388165.html