一种基于带核随机子空间的聚类集成算法
本文选题:子空间聚类 切入点:聚类集成 出处:《南京大学学报(自然科学)》2017年06期
【摘要】:随机子空间聚类集成通过属性随机采样产生属性子空间,并将子空间上的基聚类结果进行集成得到最终聚类结果.在这一过程中,子空间产生的随机性虽然为聚类集成提供了很大的差异度,但是无法保证基聚类结果的有效性,这是因为随机产生的子空间有可能只包含极少的重要属性.针对这一不足,提出了一种带核随机子空间生成策略:首先依据粗糙集理论中的互补互信息选出对于刻画数据集整体信息至关重要的属性子集,作为每个属性子空间的"核心",再从剩余属性集中随机选择一定数量的属性与核心属性共同构成聚类子空间.这种策略在兼顾子空间之间差异性的同时也提高了每个属性子空间对数据整体信息的刻画能力,从而得到更好的聚类集成结果.在大量UCI数据集上的实验证实了所提方法的合理性和有效性.
[Abstract]:Random subspace clustering ensemble generates attribute subspace by attribute random sampling, and the result of base clustering on subspace is integrated to obtain the final clustering result.In this process, the randomness generated by subspace can not guarantee the validity of base clustering results, although it provides a great degree of difference for clustering integration, because randomly generated subspaces may contain only a few important attributes.To solve this problem, a strategy of generating random subspace with kernels is proposed. Firstly, based on complementary mutual information in rough set theory, attribute subsets are selected which are important for describing the global information of data sets.As the "core" of each attribute subspace, a certain number of attributes and core attributes are randomly selected from the residual attribute set to form a cluster subspace.This strategy not only takes into account the differences between subspaces, but also improves the ability of each attribute subspace to depict the whole information of the data, so as to obtain a better result of clustering integration.Experiments on a large number of UCI datasets show that the proposed method is reasonable and effective.
【作者单位】: 山西大学计算机与信息技术学院;计算智能与中文信息处理教育部重点实验室;
【基金】:国家自然科学基金(61303008,61202018) 山西省自然科学基金(2013021018-1)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 姚小群,陈统坚,姚锡凡;基于粗糙集理论的数据发掘算法[J];机床与液压;2003年04期
2 黄金杰,李士勇,左兴权;粗糙集理论的新进展及其在智能信息处理中的应用[J];计算机工程与应用;2003年09期
3 张士林,毛海军,邵龙潭;粗糙集不协调率的研究[J];计算机工程与应用;2003年18期
4 傅明,陈曦,刘翌南;基于信息颗粒的粗糙集约简研究[J];长沙理工大学学报(自然科学版);2004年01期
5 曹宇蓉,帅典勋;基于粗糙集理论的税务系统分析模型[J];微型电脑应用;2004年09期
6 刘靖,陈福生,张勤;基于粗糙集和模糊集的属性约简算法[J];计算机工程与科学;2005年02期
7 谭耀武;;基于数据挖掘粗糙集技术的电信运营商客户价值评价[J];沿海企业与科技;2006年01期
8 赵青杉;王建国;刘婧;;基于粗糙集的风湿性二尖瓣狭窄疾病诊断[J];太原科技大学学报;2006年03期
9 陈维岩;徐上;;基于基因表达式编程和粗糙集的属性约简分类方法[J];太原科技;2009年01期
10 王文逾;;基于粗糙集的分体错位式动态汽车称重系统研究[J];太原理工大学学报;2011年06期
相关会议论文 前5条
1 柯慧燕;;基于粗糙集的远程教育个性化服务研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 邢敬宏;张明新;李向伟;;基于粗糙集的分类模型预处理研究[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
3 王刚;张志禹;;数据融合中粗糙集的应用技术研究[A];2006中国控制与决策学术年会论文集[C];2006年
4 方炜炜;杨炳儒;彭珍;;一种基于粗糙集的启发式属性归约的新算法[A];第二十七届中国控制会议论文集[C];2008年
5 方舟;黄俊强;王希忠;;基于粗糙集神经网络的信息安全等保测评方法[A];第二届全国信息安全等级保护测评体系建设会议论文集[C];2012年
相关博士学位论文 前10条
1 超木日力格;基于雅克比矩阵的软划分聚类算法分析[D];北京交通大学;2017年
2 高兵;基于密度的数据流聚类方法研究[D];哈尔滨工程大学;2014年
3 王永生;基于粗糙集理论的动态数据挖掘关键技术研究[D];北京科技大学;2016年
4 王丽娜;基于阴影集和粗糙集的模糊聚类算法研究与应用[D];南京航空航天大学;2016年
5 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
6 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年
7 王佐;基于粗糙集的聚类算法研究[D];吉林大学;2013年
8 郭庆;基于粗糙集理论的不确定信息系统及其决策研究[D];合肥工业大学;2017年
9 瞿彬彬;基于粗糙集理论的决策信息系统知识获取研究[D];华中科技大学;2006年
10 李少勇;有序决策系统的知识更新理论及其高效算法[D];西南交通大学;2014年
相关硕士学位论文 前10条
1 郭亚锐;面向大规模数据的多视角K-means聚类算法的研究[D];郑州大学;2017年
2 曹晓锋;面向维度的高维聚类边界检测技术研究[D];郑州大学;2017年
3 邱雪营;基于图像视觉上下文的多元IB聚类算法[D];郑州大学;2017年
4 栗国保;基于MapReduce的分布式聚类算法的研究[D];江西理工大学;2017年
5 张灿龙;不确定DM-chameleon聚类算法在滑坡危险性预测的研究及应用[D];江西理工大学;2017年
6 张曼;基于粗糙集和包含度的聚类分类算法研究[D];青岛理工大学;2015年
7 程钰;基于粗糙集的属性选择系统的设计与实现[D];山西大学;2015年
8 贺林晓;基于粗糙集的关联规则挖掘在变电设备故障诊断中的应用[D];华北电力大学;2015年
9 张远声;基于决策粗糙集的web短文本挖掘模型[D];广西大学;2016年
10 徐小玉;基于粒计算的数据流分类及F-粗糙集扩展的研究[D];浙江师范大学;2016年
,本文编号:1693289
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1693289.html