基因表达数据的并行聚类及其集成分类研究
发布时间:2017-10-14 15:09
本文关键词:基因表达数据的并行聚类及其集成分类研究
【摘要】:生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。基因表达的异常往往意味着非正常的生命活动,这种表达值的变化可以通过微阵列技术以基因表达数据的形成呈现出来。通过对基因表达数据进行分析,可以用来对人类和动物进行疾病诊断,研究植物生长过程中的异常现象。将不同类型的生物数据融合在一起用于分析的方法已成为近年来生物信息学领域的一种趋势,这种称为生物数据融合的方法可以帮助研究者发现数据之间存在的潜在关联,同时更好地理解某些生物现象的本质。聚类是对基因表达数据进行降维的有效方法,通过对数以万计的基因进行分簇,每个聚簇的基因个数降到了几百甚至几十个。本文在聚类过程中融合生物知识,提高结果的生物学可解释性。同时针对聚类产生的基因子集之间具有较大差异性的特点,使用集成学习的思想构建分类模型,处理基因表达数据的分类问题。基因本体数据库提供了丰富的基因功能注释信息。基于聚类之后基因聚簇生物信息不足的问题,可以使用基因本体知识计算出基因之间的生物功能相似度,并将其与基因表达数据相结合。采用近邻传播聚类算法对融合后的数据进行分簇,得到更加具有生物意义的基因子集,并分析生物知识融合对于结果的影响。基于聚类结果,使用邻域粗糙集的方法从每一簇中选出具有代表性的基因用于训练分类器,并建立更加稳定的集成分类模型。通过在植物胁迫响应基因表达数据集上的实验结果表明了融合基因本体知识的有效性。简单的基因初选过程可能会损失一些潜在的有分类价值的基因,本文使用并行计算技术,实现近邻传播聚类算法的并行化,直接对原始的基因进行聚类。针对聚类之后可能会产生较多基因子集的问题,采用随机爬山搜索算法对训练得到的分类器进行筛选,选出一组合适的分类器用于最终的集成分类。由植物胁迫响应数据集上的实验结果可知该方法可以选择出分类能力更强的基因集合。
【关键词】:知识融合 集成学习 基因表达数据 并行计算
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP311.13
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-14
- 1.1 研究背景与意义9-10
- 1.2 国内外研究现状10-11
- 1.3 本文的研究内容及结构11-14
- 2 基因选择与样本分类相关方法14-22
- 2.1 基于生物知识融合的基因表达数据分析方法14-16
- 2.1.1 常用的生物知识简介14-15
- 2.1.2 基于生物知识融合的相关方法15-16
- 2.2 基因表达数据样本的集成分类方法16-18
- 2.3 海量生物数据的并行处理18-20
- 2.4 粒计算的大数据处理中的应用20-21
- 2.5 本章小结21-22
- 3 融合生物知识的基因表达数据集成分类22-37
- 3.1 生物知识融合方法22-23
- 3.2 近邻传播聚类23-24
- 3.3 基于生物知识融合的基因表达数据分析方法24-26
- 3.3.1 基因初选24
- 3.3.2 基于生物相关聚簇的基因选择24-26
- 3.4 实验结果与分析26-36
- 3.4.1 实验数据集26-27
- 3.4.2 实验设置27
- 3.4.3 实验结果分析27-33
- 3.4.4 对比实验33-34
- 3.4.5 生物学意义分析34-36
- 3.5 本章小结36-37
- 4 基于并行聚类的基因表达数据集成分类37-47
- 4.1 MapReduce并行编程框架37-38
- 4.2 基于并行计算的基因表达数据分析方法38-43
- 4.2.1 并行近邻传播聚类算法38-40
- 4.2.2 随机爬山搜索分类器选择方法40-43
- 4.3 实验结果与分析43-46
- 4.3.1 实验数据集43
- 4.3.2 实验设置43
- 4.3.3 实验结果及分析43-46
- 4.4 本章小结46-47
- 结论47-48
- 参考文献48-53
- 攻读硕士学位期间发表学术论文情况53-54
- 致谢54-55
【参考文献】
中国期刊全文数据库 前1条
1 徐计;王国胤;于洪;;基于粒计算的大数据处理[J];计算机学报;2015年08期
,本文编号:1031716
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1031716.html
最近更新
教材专著