基于随机抽样的模糊粗糙约简
本文关键词: 模糊粗糙集 随机抽样 属性约简 统计粗糙集 出处:《软件学报》2017年11期 论文类型:期刊论文
【摘要】:传统的属性约简由于其时间复杂度和空间复杂度过高,几乎无法应用到大规模的数据集中.将随机抽样引入传统的模糊粗糙集中,使得属性约简的效率大幅度提升.首先,在统计下近似的基础上提出一种统计属性约简的定义.这里的约简不是原有意义上的约简,而是保持基于统计下近似定义的统计辨识度不变的属性子集.然后,采用抽样的方法计算统计辨识度的样本估计值,基于此估计值可以对统计属性重要性进行排序,从而可以设计一种快速的适用于大规模数据的序约简算法.由于随机抽样集以及统计近似概念的引入,该算法从时间和空间上均降低了约简的计算复杂度,同时又保持了数据集中信息含量几乎不变.最后,数值实验将基于随机抽样的序约简算法和两种传统的属性约简算法从以下3个方面进行了对比:计算属性约简时间消耗、计算属性约简空间消耗、约简效果.对比实验验证了基于随机抽样的序约简算法在时间与空间上的优势.
[Abstract]:Traditional attribute reduction can hardly be applied to large-scale data sets because of its high complexity in time and space. Random sampling is introduced into the traditional fuzzy rough sets. The efficiency of attribute reduction is greatly improved. First of all, on the basis of statistical approximation, a definition of statistical attribute reduction is proposed. The reduction here is not the original sense of reduction. It is a subset of attributes that keep the statistical identification degree invariant based on the approximate definition under statistics. Then, the sample estimation of statistical identification is calculated by sampling method. Based on this estimate, the importance of statistical attributes can be sorted, and a fast order reduction algorithm for large-scale data can be designed, because of the introduction of random sampling set and statistical approximation concept. The algorithm reduces the computational complexity of the reduction in both time and space, while keeping the information content in the dataset almost unchanged. Finally. Numerical experiments compare the order reduction algorithm based on random sampling with two traditional attribute reduction algorithms from the following three aspects: computing attribute reduction time consumption and computing attribute reduction space consumption. The comparison experiment shows that the order reduction algorithm based on random sampling has advantages in time and space.
【作者单位】: 中国人民大学信息学院;中国人民大学数据工程与知识工程教育部重点实验室;中国人民大学环境学院;
【分类号】:TP18
【正文快照】: 随着大数据时代的来临,数据挖掘技术蓬勃发展.近年来,由于不确定性数据比重的不断增大,不确定性数据挖掘越来越受到人们的重视.在不确定数据上进行降维,如基于模糊粗糙集的属性约简,近几年得到广泛关注.但是,现有的模糊粗糙集约简方法由于其基础理论复杂度的桎梏,无法直接应用
【相似文献】
相关会议论文 前3条
1 李然;吕永江;林和;李永礼;;基于数据库系统的知识约简算法[A];2005全国自动化新技术学术交流会论文集(三)[C];2005年
2 孙茂圣;李斌;;一种分布式本体融合及冗语关系约简算法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
3 樊艳英;徐章艳;张伟;张自敏;陈冠萍;;一种基于粗糙集理论的完备值约简算法[A];广西计算机学会2012年学术年会论文集[C];2012年
相关博士学位论文 前2条
1 刘遵仁;多类型属性的邻域粗糙模型和约简算法的研究[D];上海大学;2013年
2 金勇;数字媒体约简算法研究[D];浙江大学;2012年
相关硕士学位论文 前10条
1 刘素军;基于GA-PSO的粗糙集属性的简算法的研究[D];华中师范大学;2015年
2 李然;粒计算的高效知识约简算法与缺失数据处理[D];兰州大学;2006年
3 安爽;基于信息熵的数据约简算法[D];东北大学;2008年
4 闫电勋;粗糙集并行约简算法研究[D];浙江师范大学;2012年
5 梁泉;复杂系统预测中知识约简算法及其表示的研究[D];中南林学院;2004年
6 张磊;基于粗糙熵的数据约简算法及应用研究[D];苏州大学;2007年
7 周彤;基于信息系统属性相关性的知识约简算法研究[D];湖南大学;2012年
8 刘薇;基于Rough Sets的增量式约简算法研究[D];山西大学;2011年
9 张西情;基于熵的约简算法在急斜顶煤可放性中的应用[D];西安科技大学;2012年
10 罗俊;粗糙集理论约简算法及其应用研究[D];武汉理工大学;2009年
,本文编号:1453324
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1453324.html