基于统计方法的癌症特征基因提取
发布时间:2017-10-29 11:28
本文关键词:基于统计方法的癌症特征基因提取
更多相关文章: 基因表达谱数据 chernoff距离 Bhattaacharyya距离 Lasso方法 支持向量机
【摘要】:癌症是当前困扰现代医学的一种严重的致死性疾病,现在一般将癌症作为各种恶性肿瘤的统称。目前临床上对于肿瘤的诊断主要是借助形态学上的方法,但这种方法并不精确。癌症的发生往往包含着生物体内基因的变化,因此从基因层面对癌症的致病机理进行研究更具有科学性。DNA微阵列技术可以在短时间内获得大量生物基因表达谱数据,这使得从基因层面分析癌症的发生成为可能,同时该方法对于癌症病患的早期诊断和后续相关治疗有着非常重要的意义。但是基因表达谱数据往往具有维数高、小样本、噪声大的特点,这使得对数据分析的难度大大增加。癌症致病基因的数目一般比较少,大量无关基因夹杂在表达数据中增加了分析的难度。鉴于此,预先选取一定的标准对无关基因进行剔除,使得数据维数降低,并通过选择的最优特征基因来取得较高的分类准确率,成为利用DNA微阵列技术研究癌症的基本思路。本文选取结肠癌基因表达谱数据,通过采用Chernoff距离和Bhattaacharyya距离相结合的方法,滤除掉无关基因,找到了136个代表性的候选特征基因,随后采用Lasso方法对数据进行进一步降维分析,最终选出了21个关键的特征基因。用支持向量机的方法对所选特征基因的分类效果进行了检测,得到87%的分类准确率。其中几个特征基因己被生物学实验证实与结肠癌有关。
【关键词】:基因表达谱数据 chernoff距离 Bhattaacharyya距离 Lasso方法 支持向量机
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R73-3
【目录】:
- 摘要3-4
- Abstract4-8
- 第1章 绪论8-16
- 1.1 研究背景及其意义8-9
- 1.2. 生物信息学概述9-10
- 1.3. 生物信息学相关概念10-12
- 1.3.1 基因芯片技术10-11
- 1.3.2 基因表达谱数据11
- 1.3.3 基因表达谱数据特点11-12
- 1.4. 基因表达谱数据国内外研究现状12-14
- 1.5 本文主要工作及创新点14-16
- 第2章 基因表达谱数据分析相关理论16-24
- 2.1 基因表达谱数据的预处理16-17
- 2.1.1 缺失值处理16
- 2.1.2 异常值处理16
- 2.1.3 数据标准化16-17
- 2.2 特征基因选取17-21
- 2.2.1 特征基因选取的概念17-18
- 2.2.2 特征基因选取目的18
- 2.2.3 基因表达数据的度量准则18-19
- 2.2.4 特征基因选取方法19-21
- 2.3 分类方法21-24
- 2.3.1 支持向量机21-23
- 2.3.2 实验效果评估23-24
- 第3章 LASSO方法24-27
- 3.1 Lasso方法24-25
- 3.2 LARS算法25-27
- 第4章 特征基因选取实证分析27-36
- 4.1 问题描述及数据来源27
- 4.2 实证分析与结果27-36
- 4.2.1 无关基因剔除27-32
- 4.2.2 Lasso方法降维和特征基因提取32-34
- 4.2.3 分类效果检验与评价34-35
- 4.2.4 生物学解释35-36
- 第5章 总结与展望36-38
- 5.1 总结36
- 5.2 展望36-38
- 参考文献38-43
- 致谢43
本文编号:1112817
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1112817.html