基于基因表达数据的癌症特征基因选择方法研究
本文关键词:基于基因表达数据的癌症特征基因选择方法研究
更多相关文章: 基因表达数据 特征选择 JLLESR SSLLE LLRFC score+
【摘要】:随着微阵列技术的发展和癌症基因表达数据的积累,从海量基因表达数据中选取特征基因用于癌症分类的研究引起研究者的广泛关注。然而由于基因表达数据的样本数量只有几十个而维数却高达上万个,基于机器学习和统计分析的传统分类方法容易出现过拟合或维数灾难的问题;此外,仅少部分基因与癌症的发生相关,基因表达数据中存在大量的冗余和不相关基因。从海量的基因表达数据中选择癌症类别相关的特征基因,对于癌症临床诊断、分类等提供重要的参考。特征选择作为处理基因表达数据的一种典型方法,从原始特征中仅选择与疾病类别相关的特征基因,不仅能够规避维数灾难,降低计算的复杂度,还能有效提升分类效果,并且所选择的特征基因还有明确的生物解释性。因此本文就基因表达数据的癌症特征基因选择方法,分别从单个特征评价、子集评分以及稀疏嵌入学习三个角度进行了研究,主要工作有:(1)将局部线性表示Fisher准则(Locally Linear Representation Fisher Criterion)这种特征提取方法改进为LLRFC score特征选择方法,同时结合特征间相关性分析进一步排除冗余,提出一种新的特征选择方法LLRFC score+。基于对LLRFC特征提取方法的分析,将其改进为一种对单个特征打分的Filter型特征选择方法LLRFC score。由于该方法没有考虑特征间的相关性,所选特征子集中仍有冗余特征。因此,利用皮尔逊相关系数,提出了一种能够滤除冗余的特征选择方法LLRFC score+。并将两种方法应用于9种不同类别的癌症基因表达数据,分别与Laplacian score、T-test和Fisher score三种方法选择的特征进行分类效果比对,结果发现LLRFC score和LLRFC score+两种方法分类准确率要比其他三种方法高。相比LLRFC score方法,LLRFC score+方法的分类效果更好,充分证明了我们所提出方法选择特征的有效性。(2)提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE(Subset-score Supervised Locally Linear Embedding)。有监督局部线性嵌入方法(SLLE)能够有效保持数据间的局部特性还充分考虑样本标签信息,在高维数据的分类中广泛应用,但其仅从单个特征评价的角度选择特征,所选特征集合并非最优分类特征子集,因此本文结合图论框架下迭代优化子集评分特征选择方法,提出一种基于子集评分的有监督局部线性嵌入特征选择方法SSLLE。并将其应用于6种不同类别的癌症基因表达数据,和基于特征评分的有监督局部线性嵌入特征选择方法FSLLE进行分类效果比较,结果证明从子集角度评分的SSLLE方法更有效,所选择特征的分类效果更好。(3)提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR(Joint Locally Linear Embedding Sparse Regression)。基于稀疏范数学习的方法能够有效用于特征选择,但稀疏方法是基于特征的全局结构,忽略了特征分布的局部结构。而局部线性嵌入学习方法LLE能够很好地保持特征间的局部近邻关系。因此将LLE方法和稀疏学习相结合,提出一种联合稀疏局部线性嵌入的特征选择方法JLLESR,由原始特征与低维嵌入的变换矩阵的2,1范数作为“罚函数”加入目标函数进行特征的稀疏约束,最小化原始特征回归到其低维嵌入的目标函数,根据特征在回归函数中的重要性进行评判,选择贡献度大的特征组建特征子集。在6种公开的肿瘤基因表达数据集上与LLRFC score(本文所提第一种方法)、Laplacian score、Fisher score以及T-test等特征选择方法进行分类效果比对,JLLESR的分类效果最好。此外,这种方法不受类别标签和参数的影响。
【关键词】:基因表达数据 特征选择 JLLESR SSLLE LLRFC score+
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R73-3
【目录】:
- 摘要4-6
- Abstract6-11
- 第1章 绪论11-23
- 1.1 课题研究背景和意义11-12
- 1.2 微阵列实验和基因表达数据12-16
- 1.2.1 基因微阵列实验12-14
- 1.2.2 基因表达数据及其特点14-15
- 1.2.3 基因表达数据分析方法15-16
- 1.3 癌症基因表达数据特征选择方法的国内外研究现状16-19
- 1.4 特征基因选择方法所面临的问题和挑战19-20
- 1.5 本文的主要研究内容20
- 1.6 本文的组织结构安排20-23
- 第2章 特征选择算法及分类方法23-37
- 2.1 特征选择简介23-28
- 2.1.1 特征选择的定义23-24
- 2.1.2 特征选择的基本框架24
- 2.1.3 特征选择算法的分类24-28
- 2.2 一些经典的Filter特征选择算法28-30
- 2.2.1 T-test方法28
- 2.2.2 Fisher score方法28-29
- 2.2.3 Laplacian score方法29-30
- 2.3 基于流形学习的图嵌入特征评分方法30-33
- 2.3.1 经典流形学习方法30-31
- 2.3.2 图嵌入框架及其线性泛化31-32
- 2.3.3 图嵌入特征评分方法32-33
- 2.4 分类方法33-35
- 2.4.1 支持向量机33-34
- 2.4.2 K近邻分类方法34-35
- 2.4.3 其它分类方法35
- 2.5 本章小结35-37
- 第3章 基于LLRFC的特征选择方法研究37-57
- 3.1 引言37
- 3.2 LLRFC特征提取方法37-45
- 3.2.1 局部线性嵌入LLE方法37-39
- 3.2.2 Fisher判别及其图嵌入理论下的泛化39-43
- 3.2.3 LLRFC特征提取方法43-45
- 3.3 LLRFC score的特征选择方法45-46
- 3.4 基于相关分析去冗余的特征选择方法LLRFC score+46-49
- 3.4.1 特征-类别相关性分析46
- 3.4.2 特征-特征相关性分析46-47
- 3.4.3 特征冗余性分析47-48
- 3.4.4 LLRFC score+特征选择算法48-49
- 3.4.5 算法的复杂度分析49
- 3.5 算法比较实验及结果分析49-54
- 3.5.1 实验数据集描述49-51
- 3.5.2 分类器的选择51
- 3.5.3 实验参数的选取和结果分析51-52
- 3.5.4 实验结果分析52-54
- 3.6 本章小结54-57
- 第4章 有监督局部线性嵌入的子集评分特征选择方法研究57-65
- 4.1 引言57
- 4.2 迹比形式下的特征选择方法57-61
- 4.2.1 迹比问题57-59
- 4.2.2 基于特征评分的方法59
- 4.2.3 基于子集评分的方法59-61
- 4.3 监督局部线性嵌入的子集评分特征选择方法SSLLE61-63
- 4.4 分类实验及结果分析63-64
- 4.5 本章小结64-65
- 第5章 联合稀疏局部线性嵌入的特征选择方法研究65-73
- 5.1 引言65
- 5.2 稀疏学习65-67
- 5.2.1 几种常见的范数及其扩展65-67
- 5.2.2 稀疏特征选择模型67
- 5.3 联合稀疏学习的局部嵌入特征选择方法67-70
- 5.3.1 联合稀疏学习的嵌入特征选择方法JLLESR67-69
- 5.3.2 JLLESR方法的优化求解69-70
- 5.4 分类结果比较及其分析70-72
- 5.5 本章小结72-73
- 结论与展望73-77
- 参考文献77-83
- 攻读硕士学位期间所取得的成果83-85
- 致谢85
【相似文献】
中国期刊全文数据库 前10条
1 张玲;伍亚舟;陈军;易东;;小波-神经网络方法在基因表达数据分析中的应用研究[J];重庆医学;2010年17期
2 刘英;;蛋白质网络和基因表达数据与癌症转移的预测[J];国际药学研究杂志;2008年02期
3 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
4 易东 ,张彦琦 ,王文昌 ,张蔚 ,杨梦苏 ,黄明辉 ,方志俊;基于伪F统计量的模糊聚类方法在基因表达数据分析中的应用[J];中国卫生统计;2002年03期
5 伍亚舟;张玲;罗万春;易东;;基因表达数据的多尺度特征提取与分类研究[J];计算机工程与应用;2009年13期
6 吴骋,王志勇,贺佳,贺宪民;基因表达数据中误分类点的识别与处理[J];数理医药学杂志;2004年03期
7 陆慧娟;陆江江;王明怡;陆羿;;基于压缩感知的癌症基因表达数据分类[J];中国计量学院学报;2012年01期
8 王美华;苏雄斌;蔡瑞初;罗静;;一种基于关联规则与支持向量机的基因表达数据分类模型[J];计算机应用与软件;2014年05期
9 张涛;赵发林;武振宇;李康;;Radviz可视化方法在基因表达数据分析中的应用[J];中国卫生统计;2011年01期
10 吴骋,贺佳,王志勇;基于LibSVMs软件的基因表达数据处理[J];中国卫生统计;2004年04期
中国重要会议论文全文数据库 前1条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前8条
1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
3 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年
4 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
5 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
6 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年
7 张琛;基因芯片数据处理与分析方法研究[D];吉林大学;2011年
8 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
中国硕士学位论文全文数据库 前10条
1 李科;EMD去噪算法研究及其在结肠癌基因表达数据集中的应用[D];陕西师范大学;2015年
2 田小龙;基于智能优化计算的双聚类算法研究[D];西安电子科技大学;2014年
3 晋飞鸣;基于ELM的肿瘤基因表达数据分类算法研究[D];东北大学;2013年
4 严晶;基因表达数据的合并双向聚类算法[D];湘潭大学;2015年
5 周静;一种基于多维基因组数据的基因功能模块的识别方法[D];黑龙江大学;2015年
6 高雪峰;膜计算在基因表达数据分析中的应用[D];西华大学;2015年
7 陈辉辉;基于基因表达数据的信息基因选择研究[D];山东大学;2016年
8 梁妍;基于多目标的基因表达数据双聚类算法的研究[D];广西大学;2016年
9 李晓丹;基于基因表达数据的癌症特征基因选择方法研究[D];北京工业大学;2016年
10 李靖;基于支持向量机的基因表达数据降维方法的研究[D];苏州大学;2011年
,本文编号:516787
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/516787.html