基于隐马尔可夫模型的DNA序列分类研究
发布时间:2017-06-01 02:03
本文关键词:基于隐马尔可夫模型的DNA序列分类研究,由笔耕文化传播整理发布。
【摘要】:伴随着人类基因组计划的开展,生物信息学的相关研究工作也在不断地向前发展,近年来,生物学发展的一个突出特征是生物信息量呈指数增长,数据的爆炸式增长对研究者们提出了一个严峻的新问题:怎样才能够高效管理、精确解读并充分利用这些海量信息?深入研究DNA序列对于解读人类基因组所隐藏的结构和功能十分重要,然而DNA序列与数值型数据存在着较大的不同,由于DNA序列完全由非数值符号构成,用于数值型数据的距离度量方法无法直接对其进行度量,与此同时DNA序列碱基之间具有复杂的关系,通过传统特征表示继而使用分类方法进行分类将会出现必要信息损失的问题。受DNA序列自身特点影响,多数在数值型数据上发挥很好的分类方法却在DNA序列分类时不能取得很好的分类结果,需要使用一些独特的方式对其分类。本文从DNA序列的生物学特征及统计学模型入手,研究DNA序列的概率统计特性,围绕两个关键问题:特征表示和基于模型的序列分类,对DNA序列进行深入的分析和分类研究;在深入研究隐马尔可夫模型的基础上提出新的DNA序列特征表示方法用于序列分类;同时探讨了二阶隐马尔可夫模型在DNA序列分类中的应用,最后,针对当前海量生物学数据,提出将集成学习思想用于基于模型的序列分类,具有重要的理论意义和实际应用价值。本文的主要工作及贡献如下:1.针对现有方法容易导致因DNA序列碱基残缺而影响分类精度等问题,提出一种新的DNA序列特征表示方法。基于这种新的特征表示法,构造了一种K-NN分类器对DNA序列进行分类。2.在分析DNA序列特有的生物学构造的基础上,提出一种用于DNA序列分类的二阶隐马尔可夫模型,基于新模型,提出一种DNA序列的贝叶斯分类新方法。3.针对当前的海量生物学数据,批量学习的弊端凸显,将集成学习思想用于基于模型的序列分类,提出增量二阶隐马尔可夫模型的DNA序列分类方法。将二阶隐马尔可夫模型与集成学习思想相结合,实现DNA序列分类模型的增量学习,支持分类模型在海量数据下的处理能力。
【关键词】:DNA序列 分类 隐马尔可夫模型 增量学习 集成学习
【学位授予单位】:福建师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
- 中文摘要2-3
- Abstract3-5
- 中文文摘5-9
- 绪论9-13
- 第一节 研究背景与研究意义9-10
- 第二节 研究现状10-12
- 第三节 研究内容及组织12-13
- 第一章 DNA序列分类及其主要方法13-27
- 第一节 DNA序列分类方法13-17
- 1.1 基于DNA序列特征表示的分类14-15
- 1.2 基于DNA序列间距离的分类15-16
- 1.3 基于DNA序列统计概率模型的分类16-17
- 第二节 马尔可夫随机过程和隐马尔可夫模型理论17-27
- 2.1 马尔可夫随机过程17-18
- 2.2 隐马尔可夫模型理论18-19
- 2.3 隐马尔可夫模型的三个基本问题19-20
- 2.4 隐马尔可夫模型的主要算法20-27
- 第二章 一阶隐马尔可夫模型的DNA序列分类27-35
- 第一节 模型与算法27-31
- 1.1 单DNA序列的一阶隐马尔可夫建模27-28
- 1.2 序列特征表示28-29
- 1.3 分类算法29-31
- 第二节 实验与分析31-34
- 2.1 实验设置31
- 2.2 实验数据31-32
- 2.3 实验结果与分析32-34
- 第三节 本章小结34-35
- 第三章 DNA序列的二阶隐马尔可夫模型分类35-43
- 第一节 模型与算法35-39
- 1.1 DNA序列的生物学构造分析35-36
- 1.2 DNA序列的二阶隐马尔可夫建模36-37
- 1.3 多观测序列的HMM2的训练算法37-38
- 1.4 基于HMM2的贝叶斯分类方法38-39
- 第二节 实验与分析39-42
- 2.1 实验设置39-40
- 2.2 实验数据40
- 2.3 实验结果与分析40-42
- 第三节 本章小结42-43
- 第四章 增量二阶隐马尔可夫模型的DNA序列分类43-49
- 第一节 模型与算法43-46
- 1.1 增量学习思想简介43-44
- 1.2 增量二阶隐马尔可夫模型的DNA序列分类44-46
- 1.2.1 模型追加训练44
- 1.2.2 模型集成训练44-46
- 第二节 实验与分析46-48
- 2.1 实验设置46-47
- 2.2 实验数据47
- 2.3 实验结果与分析47-48
- 第三节 本章小结48-49
- 第五章 总结与展望49-51
- 第一节 总结49-50
- 第二节 展望50-51
- 参考文献51-55
- 攻读学位期间承担的科研任务与主要成果55-57
- 致谢57-59
- 个人简历59-62
【参考文献】
中国期刊全文数据库 前4条
1 蔡春;苗立峰;邓乃扬;;DNA序列特征提取方法研究[J];北京联合大学学报(自然科学版);2008年04期
2 周玉元,周铁军;DNA序列分类的Fisher判别法[J];湖南农业大学学报(自然科学版);2003年05期
3 朱扬勇;熊峗;;DNA序列数据挖掘技术[J];软件学报;2007年11期
4 史笑兴,王太君,何振亚;二阶隐马尔可夫模型的学习算法及其与一阶隐马尔可夫模型的关系[J];应用科学学报;2001年01期
中国博士学位论文全文数据库 前1条
1 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前2条
1 吴广财;HMM增量学习算法在中文命名实体识别中的应用研究[D];华南理工大学;2011年
2 温海彬;马尔可夫链预测模型及一些应用[D];南京邮电大学;2012年
本文关键词:基于隐马尔可夫模型的DNA序列分类研究,,由笔耕文化传播整理发布。
本文编号:411277
本文链接:https://www.wllwen.com/shekelunwen/shgj/411277.html