面向癌症基因数据的关联规则挖掘技术研究
发布时间:2021-07-21 22:06
科学技术地进步推动各行各业快速改革,特别是生物学方面,全基因测序的成功,使得对癌症基因表达数据的获取代价急剧下降,为系统的研究癌症基因组提供了广阔的平台。癌症基因表达数据的特性是维度高、样本量少、信噪比大,如何在这样的数据集中挖掘出有价值的信息,是研究的热点问题。目前,国内外研究学者们对癌症基因表达数据的研究取得了一些成果,但由于技术路线不够成熟,对基因表达数据研究不够透彻,这些成果不能在临床医学上开放使用,所以对癌症基因表达数据的研究仍然需要大规模的验证。在众多的数据挖掘方法中,关联规则的挖掘是最具实际效益的。Apriori关联规则挖掘算法是数据挖掘中经典算法之一,该算法的缺陷也非常明显,针对高维大数据,在生成频繁项集的时候,Apriori算法需要一遍遍反复扫描数据库,生成的候选项集不仅占用存储空间,而且有很多无关项。这样不仅降低了算法的准确性,且耗费时间。针对这一缺点,本文提出了一种新的基于PmR-NRS混合特征选择对原数据集进行降维处理,主要是通过PmR-NRS方法将数据集中特征与类别之间具有最大相关性而特征相互之间具有最小冗余性的特征提取出来,保留最优化的特征子集进行关联规则的...
【文章来源】:兰州交通大学甘肃省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
高斯分布图示
图 3.4 特征选择算法在 SVM 上的性能比较合表 3.5 和图 3.4 所示,通过不同特征选择方法的比较结果可以看出,采类器验证四种基因数据集的精确度,其中效果最差的是 ReliefF 算法,.77%;而 mRMR 和 NRS 特征选择算法的效果差不多,平均精确度分别为4%;除去白血病数据集,本文提出的 PmR-NRS 混合特征选择算法的分到 93.84%。由此可见通过本文提出的算法处理过的基因数据集,分类精算法要高一些,从而也证明了本文提出的 PmR-NRS 混合特征选择算法有效性。 ASM 和它的标准偏差来测量四种不同特征选择算法稳定性能(见表 、mRMR 和 NRS 算法中,稳定性对于四组基因数据集来说效果都是非值大约都在 0.84~0.94 范围内。而且这三种特征选择方法的标准偏差也癌数据集上,它的偏差略大一些。在本文提出的新方法 PmR-NRS 与其之下稳定性就差了一些,其平均 ASM 值为 0.69。因为 PmR-NRS 方法法,比其它单一的算法更为复杂,结合图 3.4 我们可以得出,在分类精面,本文提出的新方法可行性还是比较好的。
图 4.1 独立向量图示向量1a 和2a ,接下来将向量 投影到向量常大,因此 和 是正交的,它们是独量 投影到 上。如图所示: 在1a 上的相似的,是相互依赖的。a1-a*a1a2a*图 4.2 依赖向量图示
【参考文献】:
期刊论文
[1]基于Spark的肿瘤基因混合特征选择方法[J]. 汪丽丽,邓丽,余玥,费敏锐. 计算机工程. 2018(11)
[2]影像学引导肺癌冷冻消融治疗专家共识2018版[J]. 魏颖恬,肖越勇. 中国介入影像与治疗学. 2018(05)
[3]基于NCBI基因表达综合数据库筛查胃癌关键基因和信号通路的分析[J]. 张鹏,罗琴,汪婷婷,袁向亮,沈立松. 检验医学. 2018(03)
[4]基于FP-GROWTH算法的关联规则挖掘算法研究[J]. 陈寅. 无线互联科技. 2017(19)
[5]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[6]基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J]. 肖文,胡娟,周晓峰. 计算机应用研究. 2018(01)
[7]一种结合随机森林和邻域粗糙集的特征选择方法[J]. 吴辰文,王伟,李长生,梁靖涵,闫光辉. 小型微型计算机系统. 2017(06)
[8]自动确定聚类个数的模糊聚类算法[J]. 陈海鹏,申铉京,龙建武,吕颖达. 电子学报. 2017(03)
[9]基于FP-Tree的多层关联规则挖掘算法的设计和实现[J]. 袁冬菊. 科技展望. 2015(31)
[10]基于ReliefF+mRMR特征降维算法的多特征遥感图像分类[J]. 王露,龚光红. 中国体视学与图像分析. 2014(03)
博士论文
[1]基于基因表达数据的肿瘤分类算法研究[D]. 陆慧娟.中国矿业大学 2012
[2]基于关联规则的基因芯片数据挖掘与应用[D]. 彭斌.第三军医大学 2008
[3]生物子序列频数分布与肿瘤亚型分类模型研究[D]. 王树林.国防科学技术大学 2007
[4]关联规则挖掘及其在基因表达数据中的应用[D]. 缪裕青.中国科学技术大学 2007
本文编号:3295850
【文章来源】:兰州交通大学甘肃省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
高斯分布图示
图 3.4 特征选择算法在 SVM 上的性能比较合表 3.5 和图 3.4 所示,通过不同特征选择方法的比较结果可以看出,采类器验证四种基因数据集的精确度,其中效果最差的是 ReliefF 算法,.77%;而 mRMR 和 NRS 特征选择算法的效果差不多,平均精确度分别为4%;除去白血病数据集,本文提出的 PmR-NRS 混合特征选择算法的分到 93.84%。由此可见通过本文提出的算法处理过的基因数据集,分类精算法要高一些,从而也证明了本文提出的 PmR-NRS 混合特征选择算法有效性。 ASM 和它的标准偏差来测量四种不同特征选择算法稳定性能(见表 、mRMR 和 NRS 算法中,稳定性对于四组基因数据集来说效果都是非值大约都在 0.84~0.94 范围内。而且这三种特征选择方法的标准偏差也癌数据集上,它的偏差略大一些。在本文提出的新方法 PmR-NRS 与其之下稳定性就差了一些,其平均 ASM 值为 0.69。因为 PmR-NRS 方法法,比其它单一的算法更为复杂,结合图 3.4 我们可以得出,在分类精面,本文提出的新方法可行性还是比较好的。
图 4.1 独立向量图示向量1a 和2a ,接下来将向量 投影到向量常大,因此 和 是正交的,它们是独量 投影到 上。如图所示: 在1a 上的相似的,是相互依赖的。a1-a*a1a2a*图 4.2 依赖向量图示
【参考文献】:
期刊论文
[1]基于Spark的肿瘤基因混合特征选择方法[J]. 汪丽丽,邓丽,余玥,费敏锐. 计算机工程. 2018(11)
[2]影像学引导肺癌冷冻消融治疗专家共识2018版[J]. 魏颖恬,肖越勇. 中国介入影像与治疗学. 2018(05)
[3]基于NCBI基因表达综合数据库筛查胃癌关键基因和信号通路的分析[J]. 张鹏,罗琴,汪婷婷,袁向亮,沈立松. 检验医学. 2018(03)
[4]基于FP-GROWTH算法的关联规则挖掘算法研究[J]. 陈寅. 无线互联科技. 2017(19)
[5]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢. 计算机应用. 2017(09)
[6]基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J]. 肖文,胡娟,周晓峰. 计算机应用研究. 2018(01)
[7]一种结合随机森林和邻域粗糙集的特征选择方法[J]. 吴辰文,王伟,李长生,梁靖涵,闫光辉. 小型微型计算机系统. 2017(06)
[8]自动确定聚类个数的模糊聚类算法[J]. 陈海鹏,申铉京,龙建武,吕颖达. 电子学报. 2017(03)
[9]基于FP-Tree的多层关联规则挖掘算法的设计和实现[J]. 袁冬菊. 科技展望. 2015(31)
[10]基于ReliefF+mRMR特征降维算法的多特征遥感图像分类[J]. 王露,龚光红. 中国体视学与图像分析. 2014(03)
博士论文
[1]基于基因表达数据的肿瘤分类算法研究[D]. 陆慧娟.中国矿业大学 2012
[2]基于关联规则的基因芯片数据挖掘与应用[D]. 彭斌.第三军医大学 2008
[3]生物子序列频数分布与肿瘤亚型分类模型研究[D]. 王树林.国防科学技术大学 2007
[4]关联规则挖掘及其在基因表达数据中的应用[D]. 缪裕青.中国科学技术大学 2007
本文编号:3295850
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3295850.html