基于DNA微阵列数据的肿瘤特征基因选择方法研究
发布时间:2022-01-24 08:46
2017年初,国家癌症中心发布中国最新癌症数据,报告显示我国癌症新发人数呈上升趋势,形势依然严峻。DNA微阵列技术可获取大量的基因表达谱数据,为肿瘤特征基因选择和肿瘤亚型分类提供可靠的数据来源。但由于实验误差等影响,通过该技术获取的基因表达谱数据存在噪声和冗余基因,这些基因会影响肿瘤亚型分类的准确率。肿瘤特征基因选择不仅可高效地选出与肿瘤分类高度相关的基因,同时也降低了肿瘤亚型分类的成本。基因表达谱数据具有维数高、样本少、噪声多等特点,为数据的分析与处理带来了巨大的挑战。本文基于DNA微阵列技术获取的基因表达谱数据,采用机器学习等相关知识,探索出泛化能力强、分类精度高的肿瘤特征基因选择方法。主要研究内容如下:(1)基于PCA和信息增益的肿瘤特征基因选择方法。鉴于传统的主成分分析算法未将样本数据的类别信息考虑在内,基因数据信息未能得到有效利用,选出的特征基因子集中仍包含部分冗余信息,导致数据的分类精度偏低等问题,提出一种基于PCA和信息增益的肿瘤特征基因选择方法。首先利用主成分分析算法对原始基因数据集进行降维处理,选出贡献率较大的基因;然后采用信息增益算法剔除预选特征基因子集中的冗余信息...
【文章来源】:河南师范大学河南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
特征选择过程图
第二章 肿瘤特征基因选择方法相关理论和方法基因选择过程基因的选择即从海量基因数据集中选出致病基因,其过程主要分为以下四,从生物医学的角度出发,通过生物医学的技术手段获取基因表达谱的获得的基因表达谱数据进行一系列的预处理。然后,对基因表达谱数据进择即找出关键基因。最后利用分类器对选出的特征基因子集进行仿真实实验结果。肿瘤特征基因选择流程如图 2-2 所示,虚线左侧为采用生物医因表达谱数据的过程,虚线右侧为本文的重点研究部分。
基于 DNA 微阵列数据的肿瘤特征基因选择方法研究再通过 Matlab 进行仿真实验。原始的 Lung 数据集中共有 12600 个基因.01 的基因有 202 个;原始的 Colon 数据集中共有 2000 个基因,贡献率大 61 个;原始的 Leukemia 数据集中共有 7129 个基因,贡献率大于 0.01。经预处理可得出相对应的预选特征基因子集,然后再经信息增益算法的 PCA-IG 算法选出特征基因子集。Lung 数据集的预选特征基因子集共最终选取的特征基因共有 20 个;Colon 数据集的预选特征基因子集共有终选取的特征基因共有 17 个;Leukemia 数据集的预选特征基因子集共最终选取的特征基因共有 6 个。将 Lung 数据集、Colon 数据集和 Leukemia 数据集分别在 C4.5、Naive 和 Ramdom Forest 等分类算法上采用十折交叉验证的方式进行实验,结3 所示。
【参考文献】:
期刊论文
[1]非平衡基因数据的差异表达基因选择算法研究[J]. 谢娟英,王明钊,周颖,高红超,许升全. 计算机学报. 2019(06)
[2]基于PCA和多邻域粗糙集的肿瘤特征基因选择算法[J]. 徐久成,穆辉宇,冯森. 郑州大学学报(理学版). 2017(04)
[3]一种结合随机森林和邻域粗糙集的特征选择方法[J]. 吴辰文,王伟,李长生,梁靖涵,闫光辉. 小型微型计算机系统. 2017(06)
[4]融合信息增益与和声搜索的语音情感特征选择[J]. 陶勇森,王坤侠,杨静,李廉. 小型微型计算机系统. 2017(05)
[5]基于信噪比与随机森林的肿瘤特征基因选择[J]. 徐久成,冯森,穆辉宇. 河南师范大学学报(自然科学版). 2017(02)
[6]基于信噪比与邻域粗糙集的特征基因选择方法[J]. 徐久成,李涛,孙林,李玉惠. 数据采集与处理. 2015(05)
[7]最小相关性最大依赖度属性约简[J]. 翟俊海,万丽艳,王熙照. 计算机科学. 2014(12)
[8]基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J]. 徐久成,徐天贺,孙林,任金玉. 小型微型计算机系统. 2014(11)
[9]量子主成分分析算法[J]. 阮越,陈汉武,刘志昊,张俊,朱皖宁. 计算机学报. 2014(03)
[10]基于PCA和禁忌搜索的网络流量特征选择算法[J]. 冶晓隆,兰巨龙,郭通. 计算机科学. 2014(01)
博士论文
[1]基于信息熵的特征选择算法研究[D]. 刘华文.吉林大学 2010
本文编号:3606270
【文章来源】:河南师范大学河南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
特征选择过程图
第二章 肿瘤特征基因选择方法相关理论和方法基因选择过程基因的选择即从海量基因数据集中选出致病基因,其过程主要分为以下四,从生物医学的角度出发,通过生物医学的技术手段获取基因表达谱的获得的基因表达谱数据进行一系列的预处理。然后,对基因表达谱数据进择即找出关键基因。最后利用分类器对选出的特征基因子集进行仿真实实验结果。肿瘤特征基因选择流程如图 2-2 所示,虚线左侧为采用生物医因表达谱数据的过程,虚线右侧为本文的重点研究部分。
基于 DNA 微阵列数据的肿瘤特征基因选择方法研究再通过 Matlab 进行仿真实验。原始的 Lung 数据集中共有 12600 个基因.01 的基因有 202 个;原始的 Colon 数据集中共有 2000 个基因,贡献率大 61 个;原始的 Leukemia 数据集中共有 7129 个基因,贡献率大于 0.01。经预处理可得出相对应的预选特征基因子集,然后再经信息增益算法的 PCA-IG 算法选出特征基因子集。Lung 数据集的预选特征基因子集共最终选取的特征基因共有 20 个;Colon 数据集的预选特征基因子集共有终选取的特征基因共有 17 个;Leukemia 数据集的预选特征基因子集共最终选取的特征基因共有 6 个。将 Lung 数据集、Colon 数据集和 Leukemia 数据集分别在 C4.5、Naive 和 Ramdom Forest 等分类算法上采用十折交叉验证的方式进行实验,结3 所示。
【参考文献】:
期刊论文
[1]非平衡基因数据的差异表达基因选择算法研究[J]. 谢娟英,王明钊,周颖,高红超,许升全. 计算机学报. 2019(06)
[2]基于PCA和多邻域粗糙集的肿瘤特征基因选择算法[J]. 徐久成,穆辉宇,冯森. 郑州大学学报(理学版). 2017(04)
[3]一种结合随机森林和邻域粗糙集的特征选择方法[J]. 吴辰文,王伟,李长生,梁靖涵,闫光辉. 小型微型计算机系统. 2017(06)
[4]融合信息增益与和声搜索的语音情感特征选择[J]. 陶勇森,王坤侠,杨静,李廉. 小型微型计算机系统. 2017(05)
[5]基于信噪比与随机森林的肿瘤特征基因选择[J]. 徐久成,冯森,穆辉宇. 河南师范大学学报(自然科学版). 2017(02)
[6]基于信噪比与邻域粗糙集的特征基因选择方法[J]. 徐久成,李涛,孙林,李玉惠. 数据采集与处理. 2015(05)
[7]最小相关性最大依赖度属性约简[J]. 翟俊海,万丽艳,王熙照. 计算机科学. 2014(12)
[8]基于邻域粗糙集和粒子群优化的肿瘤分类特征基因选取[J]. 徐久成,徐天贺,孙林,任金玉. 小型微型计算机系统. 2014(11)
[9]量子主成分分析算法[J]. 阮越,陈汉武,刘志昊,张俊,朱皖宁. 计算机学报. 2014(03)
[10]基于PCA和禁忌搜索的网络流量特征选择算法[J]. 冶晓隆,兰巨龙,郭通. 计算机科学. 2014(01)
博士论文
[1]基于信息熵的特征选择算法研究[D]. 刘华文.吉林大学 2010
本文编号:3606270
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3606270.html