基于特征关系的聚类集成研究
发布时间:2017-12-10 17:25
本文关键词:基于特征关系的聚类集成研究
更多相关文章: 机器学习 聚类分析 集成学习 特征工程 提升学习
【摘要】:聚类分析是一种应用性很强的机器学习策略,它主要用于将原数据集划分成具有明显区分边界的若干组数据。由于该策略对数据自身性质的敏感性,所以在聚类分析的具体实现方法中不存在一种通用的方法,可以处理任意性质的数据集。为了解决这个问题,许多学者提出并研究使用集成学习来改进聚类分析,取得了很好的的效果。然而,在大部分学者的研究中,他们将重点放在了集成学习的算法实现上,而对数据本身并没有过多的关注。但是,在机器学习这一领域中,数据自身性质会对其最终的学习质量产生很大的影响,特别是当数据中特征较多并且关系较为复杂时,特征工程可以非常显著地提升机器学习的学习质量。因此,论文从数据特征的角度出发,对聚类集成进行了如下研究:1.对于聚类集成的第一个过程,我们以降低特征之间相关性为目标,生成聚类成员所使用的的特征子集,由此可以提高聚类成员之间的差异性,使其在集成时获得更优的聚类质量。2.对于聚类集成的第二个过程,我们根据数据自身性质的差别,提出了 4种用于评价聚类成员自身效果的权重计算方法。在对聚类成员进行融合时,根据数据自身的性质针对性地使用这些权重计算方法,可以得到最佳的聚类结果。3.对于以迭代优化为核心的聚类集成策略,我们考察了一种传统的基于提升学习(Boosting)的聚类集成方法,并深入分析了该方法应用于聚类集成的困难与挑战,同时以数据特征为出发点对其进行了改进。改进后的方法在判断数据的聚类质量时更加稳定,并且比传统方法具有更好的时间性能。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP181
【参考文献】
中国期刊全文数据库 前6条
1 潘俊;王瑞琴;;基于选择性聚类集成的客户细分[J];计算机集成制造系统;2015年06期
2 沈畅;乐天;;遗传算法中的变异算子的述评[J];科技视界;2012年23期
3 张玉芳;王勇;熊忠阳;刘明;;不平衡数据集上的文本分类特征选择新方法[J];计算机应用研究;2011年12期
4 邓春燕;;遗传算法的交叉算子分析[J];农业网络信息;2009年05期
5 阳琳峗;周海京;卓晴;王文渊;;基于属性重要性的加权聚类融合[J];计算机科学;2009年04期
6 朱强生;何华灿;周延泉;;谱聚类算法对输入数据顺序的敏感性[J];计算机应用研究;2007年04期
,本文编号:1275318
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1275318.html