基于遗传算法的随机森林模型在特征基因筛选中的应用
本文关键词:基于遗传算法的随机森林模型在特征基因筛选中的应用
【摘要】:目的探索基于遗传算法的随机森林模型在特征基因筛选中的效果和特点。方法通过本文构建的基于遗传算法的随机森林模型(GARF)对真实基因数据和模拟数据进行特征基因筛选,以筛选后基因进行判别分析,计算ROC曲线下面积AUC值,同时观察GARF方法对模拟实验中预设的差异基因排序结果。结果对真实基因数据和模拟数据的分析结果均显示,采用GARF方法筛选得到的特征基因建立判别模型能获得更好的分类效果,在模拟实验中与随机森林相比能将预设的差异基因排在更靠前的位置。结论 GARF方法能够有效地用于基因芯片数据特征基因筛选,在FDR控制上具备潜力,具有研究价值。
【作者单位】: 杭州师范大学医学院健康管理系;山东大学公共卫生学院生物统计学系;哈尔滨医科大学卫生统计学教研室;
【关键词】: 随机森林 遗传算法 特征基因筛选
【基金】:浙江省自然科学基金项目(LQ12H26002) 杭州师范大学科研启动基金项目(2011QDL12)
【分类号】:Q811.4
【正文快照】: 特征基因筛选是基因组学研究的主要目的之一,不仅要求能够通过筛选到的特征变量对样本进行有效分类,而且要保证筛选得到的特征变量集有较小的假发现率(false discovery rate,FDR),否则将极大增加生物学验证的工作量,浪费大量资源,甚至无法实现生物学验证。近年来,随机森林(ran
【相似文献】
中国期刊全文数据库 前7条
1 方正;李益洲;肖嘉敏;李功兵;文志宁;李梦龙;;基于复杂网络的随机森林算法预测氨基酸突变对蛋白质稳定性的影响(英文)[J];化学研究与应用;2011年05期
2 张光亚;方柏山;;基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J];生物工程学报;2008年02期
3 来海锋;韩斌;厉力华;陈岩;祝磊;代琦;;基于集成类随机森林方法的神经胶质瘤特征基因选择的研究[J];生物物理学报;2010年09期
4 郭颖婕;刘晓燕;郭茂祖;邹权;;植物抗性基因识别中的随机森林分类方法[J];计算机科学与探索;2012年01期
5 王莹;;用随机森林算法预测六类酶的亚类[J];阴山学刊(自然科学版);2014年02期
6 金宇;周可新;方颖;刘欣;;基于随机森林模型预估气候变化对动物物种潜在生境的影响[J];生态与农村环境学报;2014年04期
7 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国硕士学位论文全文数据库 前6条
1 白杨;基于随机森林的外显子剪接增强子识别[D];哈尔滨工业大学;2010年
2 郭颖婕;基于随机森林的植物抗性基因识别方法研究[D];哈尔滨工业大学;2011年
3 姚俊杰;基于随机森林的致病SNPs检测方法研究[D];湖南大学;2012年
4 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
5 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
6 王星支;核受体蛋白、生物荧光蛋白的预测算法研究[D];内蒙古农业大学;2015年
,本文编号:917578
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/917578.html