当前位置:主页 > 科技论文 > 数学论文 >

基于随机森林模型的成分数据缺失值填补法

发布时间:2018-04-16 11:38

  本文选题:缺失值填补 + 成分数据 ; 参考:《应用概率统计》2017年01期


【摘要】:缺失数据处理是数据挖掘领域中进行数据预处理的一个重要环节,由于成分数据特殊的几何性质,传统的缺失值填补方法不能直接用于这种类型的数据.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,本文利用了成分数据和欧氏数据之间的关系,提出了一种基于随机森林的成分数据缺失值迭代填补法,该方法的实施和评估采用模拟和真实的数据集.实验结果表明:新的填补方法可广泛应用于多种类型的数据集且具有较高准确性.
[Abstract]:Missing data processing is an important part of data preprocessing in the field of data mining. Because of the special geometric properties of component data, the traditional missing value filling method can not be directly used for this type of data.Therefore, it is very important for the component data to fill the missing value.In order to solve this problem, this paper uses the relationship between component data and Euclidean data, and proposes an iterative filling method for missing values of component data based on random forest. The implementation and evaluation of this method is based on simulation and real data sets.The experimental results show that the new filling method can be widely used in many kinds of data sets and has high accuracy.
【作者单位】: 山西大学数学科学学院;
【基金】:山西省高等学校教学改革项目(批准号:J2014006) 山西省自然科学基金面上项目(批准号:2015011044) 山西省国际科技合作计划项目(批准号:2015081020)资助
【分类号】:O212.1

【相似文献】

相关期刊论文 前10条

1 张启敏,聂赞坎;随机森林发展系统解的存在性和唯一性(英文)[J];应用数学;2003年04期

2 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期

3 袁敏;胡秀珍;;随机森林方法预测膜蛋白类型[J];生物物理学报;2009年05期

4 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期

5 方正;李益洲;肖嘉敏;李功兵;文志宁;李梦龙;;基于复杂网络的随机森林算法预测氨基酸突变对蛋白质稳定性的影响(英文)[J];化学研究与应用;2011年05期

6 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期

7 曹正凤;谢邦昌;纪宏;;一种随机森林的混合算法[J];统计与决策;2014年04期

8 张光亚;方柏山;;基于氨基酸组成分布的嗜热和嗜冷蛋白随机森林分类模型[J];生物工程学报;2008年02期

9 马景义;吴喜之;谢邦昌;;拟自适应分类随机森林算法[J];数理统计与管理;2010年05期

10 李贞子;张涛;武晓岩;李康;;随机森林回归分析及在代谢调控关系研究中的应用[J];中国卫生统计;2012年02期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前5条

1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年

2 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

3 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

4 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

5 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年



本文编号:1758763

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1758763.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户16a2a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com