互信息去冗余与多种分类模型结合的癌症分类问题研究
发布时间:2021-10-29 00:26
随着癌症发病率的提高以及癌症的高死亡率,越来越多的研究者开始将关注点放在癌症分类问题上。传统的癌症分类问题主要是基于形态学之上,主要依赖于经验,诊断准确性不高。基因芯片技术的出现使得大量的基因表达数据被测定,这使得从基因的层面对癌症进行早期的诊断成为了可能。然而基因表达数据具有样本少、维度高、数据分布不平衡等特点,如何对这些数据进行有效的预处理、通过特征选择达到降维的目的、建立分类精度高的癌症分类模型引起了广大学者的关注。在癌症分类问题中,本文首次提出互信息去冗与多种分类模型结合的分类方法。首先利用欠采样的方法对数据进行预处理,从而防止样本不平衡所带来的数据碎片问题和不恰当的归纳偏置问题;然后通过信息增益的方法进行特征基因的选择,从而降低数据维度,去除无关的特征所带来的干扰和对性能的影响;进而使用互信息的方法进行冗余基因的去除;最后使用最终的特征基因集合用于癌症分类模型的构建。本文将互信息去冗与多种分类模型结合的分类方法应用在基因表达谱类型数据的分类问题中,通过实验和对比研究探索数据预处理、特征基因的选择、冗余基因的去除、分类模型的构建。对KentRidge数据集和TCGA乳腺癌数据集...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 DNA微阵列技术
1.2.1 DNA微阵列技术原理
1.2.2 基因表达数据特点
1.3 国内外研究现状
1.3.1 数据集的选择
1.3.2 数据预处理
1.3.3 分类器的设计
1.3.4 特征选择
1.4 研究内容
1.5 章节安排
第2章 癌症分类问题概述
2.1 特征选择
2.1.1 特征选择的定义
2.1.2 特征选择的方法及分类
2.2 信息增益与互信息
2.3 最近邻算法
2.4 支持向量机
2.5 集成方法
2.6 贝叶斯分类器
2.7 本章小结
第3章 数据预处理和特征基因选择
3.1 数据预处理
3.2 特征基因选择方法
3.2.1 信息熵
3.2.2 信息增益
3.3 冗余基因剔除方法
3.3.1 互信息
3.4 LSSVM预测模型
3.5 本章小结
第4章 互信息去冗余与多种模型结合的分类模型构建
4.1 预测方法框架
4.2 数据预处理
4.3 特征基因选择
4.4 冗余基因去除
4.5 分类模型的构建
4.5.1 最近邻算法
4.5.2 支持向量机
4.6 本章小结
第5章 实验研究与优化
5.1 实验
5.1.1 Anaconda介绍
5.1.2 实验环境
5.2 实验概况
5.2.1 数据集介绍
5.2.2 模型参数设置
5.2.3 分类性能评价指标
5.3 案例1:不同特征选择方法与LSSVM组合实验
5.4 案例2:不同特征选择方法与多种分类器结合对比实验
5.5 案例3:TCGA数据集对比实验
5.6 案例4:与以往研究对比实验
5.7 本章小结
结论
参考文献
附录A 攻读学位期间所发表的学术论文
附录B 攻读学位期间参与的科研项目
致谢
【参考文献】:
期刊论文
[1]癌症基因表达数据的集成分类器设计与分析[J]. 宋年丰. 无线互联科技. 2016(07)
[2]改进的多类支持向量机递归特征消除在癌症多分类中的应用[J]. 黄晓娟,张莉. 计算机应用. 2015(10)
[3]基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J]. 于化龙,高尚,赵靖,秦斌. 计算机科学. 2012(05)
[4]基于DNA微阵列数据的癌症分类问题研究进展[J]. 于化龙,顾国昌,赵靖,刘海波,沈晶. 计算机科学. 2010(10)
[5]肿瘤信息基因启发式宽度优先搜索算法研究[J]. 王树林,王戟,陈火旺,李树涛,张波云. 计算机学报. 2008(04)
[6]基于支持向量机的肿瘤分类特征基因选取[J]. 李颖新,阮晓钢. 计算机研究与发展. 2005(10)
硕士论文
[1]基于信息熵的改进k-TSP方法及其在癌症分类中的应用[D]. 周纯葆.吉林大学 2009
本文编号:3463605
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 DNA微阵列技术
1.2.1 DNA微阵列技术原理
1.2.2 基因表达数据特点
1.3 国内外研究现状
1.3.1 数据集的选择
1.3.2 数据预处理
1.3.3 分类器的设计
1.3.4 特征选择
1.4 研究内容
1.5 章节安排
第2章 癌症分类问题概述
2.1 特征选择
2.1.1 特征选择的定义
2.1.2 特征选择的方法及分类
2.2 信息增益与互信息
2.3 最近邻算法
2.4 支持向量机
2.5 集成方法
2.6 贝叶斯分类器
2.7 本章小结
第3章 数据预处理和特征基因选择
3.1 数据预处理
3.2 特征基因选择方法
3.2.1 信息熵
3.2.2 信息增益
3.3 冗余基因剔除方法
3.3.1 互信息
3.4 LSSVM预测模型
3.5 本章小结
第4章 互信息去冗余与多种模型结合的分类模型构建
4.1 预测方法框架
4.2 数据预处理
4.3 特征基因选择
4.4 冗余基因去除
4.5 分类模型的构建
4.5.1 最近邻算法
4.5.2 支持向量机
4.6 本章小结
第5章 实验研究与优化
5.1 实验
5.1.1 Anaconda介绍
5.1.2 实验环境
5.2 实验概况
5.2.1 数据集介绍
5.2.2 模型参数设置
5.2.3 分类性能评价指标
5.3 案例1:不同特征选择方法与LSSVM组合实验
5.4 案例2:不同特征选择方法与多种分类器结合对比实验
5.5 案例3:TCGA数据集对比实验
5.6 案例4:与以往研究对比实验
5.7 本章小结
结论
参考文献
附录A 攻读学位期间所发表的学术论文
附录B 攻读学位期间参与的科研项目
致谢
【参考文献】:
期刊论文
[1]癌症基因表达数据的集成分类器设计与分析[J]. 宋年丰. 无线互联科技. 2016(07)
[2]改进的多类支持向量机递归特征消除在癌症多分类中的应用[J]. 黄晓娟,张莉. 计算机应用. 2015(10)
[3]基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J]. 于化龙,高尚,赵靖,秦斌. 计算机科学. 2012(05)
[4]基于DNA微阵列数据的癌症分类问题研究进展[J]. 于化龙,顾国昌,赵靖,刘海波,沈晶. 计算机科学. 2010(10)
[5]肿瘤信息基因启发式宽度优先搜索算法研究[J]. 王树林,王戟,陈火旺,李树涛,张波云. 计算机学报. 2008(04)
[6]基于支持向量机的肿瘤分类特征基因选取[J]. 李颖新,阮晓钢. 计算机研究与发展. 2005(10)
硕士论文
[1]基于信息熵的改进k-TSP方法及其在癌症分类中的应用[D]. 周纯葆.吉林大学 2009
本文编号:3463605
本文链接:https://www.wllwen.com/yixuelunwen/zlx/3463605.html