基于随机森林两阶段逐步变量选择算法的研究及应用
本文关键词:基于随机森林两阶段逐步变量选择算法的研究及应用
【摘要】:随着多种数据自动采集技术、移动互联网、物联网、云计算的快速发展,在经济、生物等各领域在迅速积累着大量数据,由此产生的数据维度越来越高。变量数大大超过样本数,即“大P小N”问题。随机森林是一种常用的高维数据处理方法。它运行速度快,能有效处理非线性、交互作用、具有相关性的数据,一般不会产生过度拟合。随机森林自带的变量重要性得分评价更是随机森林算法的一大特点,可以应用到多种回归和分类问题,在经济、生物等各领域都有广泛研究。因此,本文提出基于随机森林两阶段逐步变量选择的算法(TSRF),主要内容如下:1.变量重要性排序改进方法:针对文献[53]所提出的变量中含有大量噪声变量以及与所选变量相关的变量,会影响真正要被选择的变量得分问题。本文提出第一阶段基于分组的随机森林变量重要性排序改进,目的是进一步提高重要变量与噪声变量的区分度。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。2.逐步选择变量改进方法:将随机森林与逐步选择变量方法相结合,提出基于随机森林的逐步变量选择改进。对自变量进行筛选,选入与因变量高度相关的变量,剔除不相关变量,使得算法建模后的自变量选择更加准确。利用普通数据模拟实验与生物中的遗传数据模拟实验来验证方法的有效性和可行性。其中普通数据模拟包含分类数据及回归数据。研究不同情况下,样本数量N、变量数目P、变量间的相关系数r以及分组数对基于两阶段随机森林逐步变量选择的影响。生物中的遗传数据模拟包含单个数量性状基因座模拟与多个数量性状基因座模拟。通过设定染色体长度、条数、数量性状基因座位置、标记数量等,来验证基于两阶段随机森林逐步变量选择对特定遗传数据处理的有效性和可行性。3.对比分析:对水稻穗粒数的实例数据进行标记选择实证研究。将处理后的结果与SCAD惩罚函数、弹性网回归Elastic Net参数估计方法的结果、传统数量性状基因座定位WinQTLcart2.5软件的运行结果比较,发现基于随机森林两阶段逐步变量选择算法有较大改进,能准确筛选变量。基于两阶段随机森林逐步变量选择的算法对经济、生物中高维数据的变量选择具有重要的意义。
【关键词】:随机森林 变量选择 变量重要性 回归分析
【学位授予单位】:福建农林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q-332;F224
【目录】:
- 摘要7-8
- Abstract8-10
- 第一章 绪论10-17
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-14
- 1.2.1 应用研究进展11-12
- 1.2.2 算法改进研究进展12-14
- 1.3 研究方法与思路14-17
- 1.3.1 本文的研究内容14-15
- 1.3.2 本文拟解决的关键问题15-17
- 第二章 基础理论方法17-22
- 2 基础理论方法17-22
- 2.1 随机森林理论方法17-21
- 2.1.1 随机森林算法思想17-19
- 2.1.2 CART算法19-20
- 2.1.3 随机森林变量重要性20-21
- 2.2 随机森林的特点21-22
- 第三章 方法对比分析22-27
- 3.1 预备知识22-24
- 3.2 模拟实验24-27
- 第四章 变量重要性排序改进27-48
- 4.1 算法介绍27-28
- 4.2 模拟实验28-45
- 4.2.1 回归模拟实验及其结果分析29-38
- 4.2.2 分类模拟实验及其结果分析38-45
- 4.3 遗传数据模拟实验45-48
- 4.3.1 单个QTL的模拟45-47
- 4.3.2 多个QTL的模拟47-48
- 第五章 逐步变量选择改进48-57
- 5.1 算法介绍48-50
- 5.2 模拟实验50-54
- 5.2.1 回归模拟实验及其结果分析50-52
- 5.2.2 分类模拟实验及其结果分析52-54
- 5.3 遗传数据模拟实验54-57
- 5.3.1 单个QTL的模拟54
- 5.3.2 多个QTL的模拟54-57
- 第六章 实例分析与对比评价57-61
- 6.1 水稻穗粒数杂种优势实例分析57-58
- 6.2 方法对比分析58-61
- 第七章 总结与展望61-65
- 7.1 本文的创新点61-62
- 7.2 讨论62-64
- 7.3 今后的研究思路64-65
- 参考文献65-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 张启敏,聂赞坎;随机森林发展系统解的存在性和唯一性(英文)[J];应用数学;2003年04期
2 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期
3 袁敏;胡秀珍;;随机森林方法预测膜蛋白类型[J];生物物理学报;2009年05期
4 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期
5 方正;李益洲;肖嘉敏;李功兵;文志宁;李梦龙;;基于复杂网络的随机森林算法预测氨基酸突变对蛋白质稳定性的影响(英文)[J];化学研究与应用;2011年05期
6 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
7 曹正凤;谢邦昌;纪宏;;一种随机森林的混合算法[J];统计与决策;2014年04期
8 张光亚;方柏山;;基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J];生物工程学报;2008年02期
9 马景义;吴喜之;谢邦昌;;拟自适应分类随机森林算法[J];数理统计与管理;2010年05期
10 李贞子;张涛;武晓岩;李康;;随机森林回归分析及在代谢调控关系研究中的应用[J];中国卫生统计;2012年02期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
,本文编号:668855
本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/668855.html