当前位置:主页 > 医学论文 > 肿瘤论文 >

基于监督学习的肿瘤特征基因选择方法研究

发布时间:2017-08-17 18:09

  本文关键词:基于监督学习的肿瘤特征基因选择方法研究


  更多相关文章: 监督学习 特征基因选择 邻域粗糙集 logistic回归模型 信噪比


【摘要】:机器学习主要是一种基于数据的概率统计模型,它推理和发现数据中的知识,并利用抽象出的数据模型对数据进行分析与预测。数据质量的优劣直接影响机器学习的性能。在医学领域,基因表达谱数据获取过程中含有较大的实验误差,且随着数据维度的急速增加会含有大量的无关基因及冗余基因,这些信息不仅降低了机器学习算法的性能,而且也为肿瘤诊断与预测带来了巨大的挑战。为此,针对高维少样本的基因表达数据,需探索鲁棒性更强、更具解释性的算法模型,从海量数据中找出关键的信息基因对肿瘤疾病的诊断具有重大的研究意义和应用价值。针对当前基因特征选择算法普遍存在泛化能力较差和运行效率较低的问题,本文主要从监督学习角度研究肿瘤基因表达谱,选取高度相关、低度冗余的特征子集,提高算法的分类精度和运行效率。本文的创新点如下:(1)为解决传统基因选择方法会选出大量无关基因从而导致样本预测准确率较低的问题,本文提出了一种基于logistic与相关信息熵的特征基因选择方法。首先采用logistic回归模型比较两个条件概率值的大小,获得对分类影响较大的基因,可有效降低后续计算的时空消耗;其次引入Relief算法计算特征基因的重要性并排序,删除无关特征以生成候选特征基因子集;然后构建相关系数矩阵,依此衡量特征基因间的相关性,剔除冗余基因,在一定程度上避免了样本数据与模型出现过拟合;最后利用支持向量机作为分类器对得到的特征基因子集进行分类。通过UCI数据集的交叉检验结果表明,所提出的方法能有效剔除无关基因且获得较高的正确识别率。(2)鉴于传统基因选择方法会选出大量冗余基因从而导致样本预测准确率较低的问题,本文提出一种基于信噪比与邻域粗糙集的肿瘤特征选择方法。首先从度量特征权重角度入手,采用改进信噪比指标选出预选特征基因子集,将获得的信噪比值划分为不同区间,选取信噪比值较大区间内的基因作为候选特征基因子集;在此基础上,从属性约简思想出发,利用邻域粗糙集剔除候选特征基因子集中的冗余基因,获得较优特征基因子集;最后利用三种不同的分类器对特征基因子集进行分类。实验结果表明,该算法能获得较小的特征基因子集,且提高了样本分类正确率。(3)针对现有特征选择方法未充分考虑特征之间的相关性导致分类精度低的问题,本文提出了一种基于统计特性的邻域粗糙集信息基因选择方法。该算法从基因表达谱特征选择模型入手,首先,分析特征基因的度量方法,引入相对信息熵从而建立新的评价准则衡量特征基因的重要度;其次,在SVM_FRE算法中引入构建特征相关性计算模型,综合考虑特征基因之间的相关性对分类样本的联合贡献度;然后,采用邻域粗糙集对候选特征基因子集进行寻优,并分析不同的邻域半径对寻优结果的影响;最后,采用不同的分类器对优化的特征基因子集进行分类。通过实验证明,该方法能克服传统分类算法精度不高的缺陷,且能在较少的特征基因下取得较高的分类精度。
【关键词】:监督学习 特征基因选择 邻域粗糙集 logistic回归模型 信噪比
【学位授予单位】:河南师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R730;TP181
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 绪论11-19
  • 1.1 研究背景及意义11-12
  • 1.2 基因表达谱数据描述12-13
  • 1.3 国内外研究现状13-15
  • 1.4 论文研究内容与结构安排15-19
  • 1.4.1 主要研究内容15-16
  • 1.4.2 结构安排16-19
  • 第二章 肿瘤特征基因表达谱数据挖掘相关理论和方法19-27
  • 2.1 监督学习19-20
  • 2.2 特征选择20-21
  • 2.3 特征基因选择方法21-22
  • 2.3.1 基于过滤法的特征基因选择方法21-22
  • 2.3.2 基于缠绕法的特征基因选择方法22
  • 2.4 特征基因选择过程22-25
  • 2.4.1 特征基因子集的搜索策略23-24
  • 2.4.2 特征基因子集的评估标准24-25
  • 2.5 本章小结25-27
  • 第三章 基于logistic与相关信息熵的特征基因选择算法27-35
  • 3.1 引言27-28
  • 3.2 基础概念28-29
  • 3.2.1 logistic回归模型28
  • 3.2.2 信息熵28-29
  • 3.3 基于logistic和相关信息熵的特征基因选择算法29-31
  • 3.3.1 二项logistic回归模型29
  • 3.3.2 相关信息熵29-30
  • 3.3.3 基于logistic和相关信息熵的特征基因选择算法30-31
  • 3.4 实验分析31-34
  • 3.5 本章小结34-35
  • 第四章 基于信噪比与邻域粗糙集的特征基因选择算法35-45
  • 4.1 引言35-36
  • 4.2 基础知识36-37
  • 4.2.1 信噪比36
  • 4.2.2 邻域决策系统36-37
  • 4.3 基于信噪比与邻域粗糙集的特征基因选择算法37-40
  • 4.3.1 信噪比值区间划分37-38
  • 4.3.2 基于信噪比与邻域粗糙集的特征基因选择算法38-40
  • 4.4 实验分析40-44
  • 4.5 本章小结44-45
  • 第五章 基于统计特性的邻域粗糙集肿瘤基因选择算法45-57
  • 5.1 引言45-46
  • 5.2 相关知识46-47
  • 5.2.1 基因表达谱特征选择模型46
  • 5.2.2 邻域粗糙集46-47
  • 5.3 基于统计特性的邻域粗糙集肿瘤基因选择算法47-52
  • 5.3.1 特征基因重要度47-48
  • 5.3.2 构建特征基因相关性度量函数48-51
  • 5.3.3 基于统计特性的邻域粗糙集肿瘤特征选择算法51-52
  • 5.4 仿真实验52-56
  • 5.4.1 实验数据与实验环境52-53
  • 5.4.2 实验结果分析53-56
  • 5.5 本章小结56-57
  • 第六章 结论57-59
  • 6.1 工作总结57-58
  • 6.2 今后研究构想58-59
  • 参考文献59-65
  • 致谢65-67
  • 攻读学位期间的科研成果67-68

【相似文献】

中国重要会议论文全文数据库 前1条

1 李军;孙金生;王执铨;;模型参考神经元控制[A];1996中国控制与决策学术年会论文集[C];1996年

中国博士学位论文全文数据库 前3条

1 程圣军;基于带约束随机游走图模型的弱监督学习算法研究[D];哈尔滨工业大学;2014年

2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年

3 夏铮;基于图和网络的学习算法及其在系统生物学中的一些应用[D];浙江大学;2009年

中国硕士学位论文全文数据库 前10条

1 刘锦文;基于新闻数据的中文人物社会关系抽取研究[D];中国科学技术大学;2016年

2 黄俏颖;基于多示例弱监督学习的物体检测和分类方法研究[D];哈尔滨工业大学;2016年

3 李涛;基于监督学习的肿瘤特征基因选择方法研究[D];河南师范大学;2016年

4 郭佳骋;监督学习的话题模型[D];上海交通大学;2010年

5 戴卫特;监督学习算法在预测太阳能生产中的应用[D];中南大学;2014年

6 张从乐;基于知识型数据的监督学习[D];上海交通大学;2008年

7 杨杰;监督主题模型的研究与应用[D];华中科技大学;2011年

8 李钢;代价敏感的支持向量机监督学习研究[D];南京师范大学;2007年

9 姚娜娜;基于机器学习的产品评论情感分类研究[D];首都师范大学;2013年

10 杨志武;多示例学习算法研究[D];郑州大学;2007年



本文编号:690366

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/690366.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f9cda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com