基于邻域粗糙集的肿瘤基因表达谱数据分析
发布时间:2017-07-15 14:21
本文关键词:基于邻域粗糙集的肿瘤基因表达谱数据分析
更多相关文章: 邻域粗糙集 属性分类效率 基因表达谱数据 信息基因 分类准确率
【摘要】:基于肿瘤不同的亚型的精确识别对于良性肿瘤的预防和癌症的治疗都非常关键,肿瘤不同的亚型分类研究获取了重大的关注度,而肿瘤基因表达谱数据为研究提供了重要的资源。针对基因表达谱数据中包含的特征,目前出现了多种信息基因选取的方法。邻域粗糙集理论在各个应用领域的日益成熟,为分析这类数据提供了另一种有用的研究工具。在邻域互信息信息基因选择算法及扩展的邻域条件互信息信息基因选择算法中,计算基因属性与决策属性之间的互信息值是复杂的。根据每个基因属性计算出的互信息值对基因进行排序,选取前K个基因,设定一个合适的判别函数进行降维处理。整个过程的计算量大时间长,而且选取合适的K值需要多次实验测试。针对这些考虑,本文提出了邻域粗糙集属性分类效率算法(NRSACE)。一般可知对于肿瘤分类来说有效的基因数目并不多,分类效率太低的基因我们可以设置最低分类效率控制值对其进行直接删除,基于这些想法,NRSACE算法直接计算基因属性的分类效率,对基因边排序边选择,获取所需的相对约简信息基因集。最后采用支持向量机分类器和K最近邻分类器对选取的信息基因集的分类能力进行验证,说明本文提出的邻域粗糙集属性分类效率信息基因选择算法的有效性。本文选了4组通用的肿瘤基因表达谱数据对提出的NRSACE算法进行了实验分析,4组数据分别是DLBCL、Leukemia1、Leukemia2和SRBCT肿瘤基因表达谱数据。数据实验分析结果显示,根据调节模型邻域参数δ的取值,4类肿瘤亚型的分类精度的平均值都可达到百分之九十八以上,而且实验分类精度的波动范围很小。SRBCT数据集的分析结果显示其平均分类准确率提高接近14%。本文对模型的稳健性进行了测试,随机删除原始数据集中5%的样本数,对剩余样本利用NRSACE算法进行分析,选取的信息基因集的元素个数协同选择的基因集具体元素相差不大,同时平均分类准确率相对稳定。所有分析表明,我们的研究具有一定的意义。
【关键词】:邻域粗糙集 属性分类效率 基因表达谱数据 信息基因 分类准确率
【学位授予单位】:湘潭大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R73-3
【目录】:
- 摘要5-6
- Abstract6-9
- 第一章 绪论9-12
- 1.1 研究背景及意义9-10
- 1.2 研究现状10-11
- 1.3 文章主体结构11-12
- 第二章 基因表达谱数据和邻域粗糙集相关理论12-23
- 2.1 基因表达谱数据12-14
- 2.1.1 基因表达谱数据的概述12
- 2.1.2 基因表达谱数据的特点12-14
- 2.2 邻域粗糙集相关理论14-20
- 2.2.1 邻域粗糙集15-16
- 2.2.2 邻域互信息和邻域条件互信息16-17
- 2.2.3 邻域粗糙集属性分类效率17-20
- 2.3 支持向量机和KNN分类器20-22
- 2.4 本章小结22-23
- 第三章 基于邻域粗糙集的信息基因选择算法23-34
- 3.1 算法设计23-26
- 3.2 实验数据描述26
- 3.3 实验结果与分析26-32
- 3.4 模型的稳健性分析32-33
- 3.5 本章小结33-34
- 第四章 结论与展望34-35
- 参考文献35-39
- 致谢39
【相似文献】
中国期刊全文数据库 前10条
1 孙德利,舒琦瑾;基因表达谱在中医药研究中的意义[J];中国中医药信息杂志;2002年01期
2 刘s,
本文编号:544326
本文链接:https://www.wllwen.com/yixuelunwen/zlx/544326.html
最近更新
教材专著