一种大规模分类数据聚类算法及其并行实现
本文关键词:一种大规模分类数据聚类算法及其并行实现 出处:《计算机研究与发展》2016年05期 论文类型:期刊论文
更多相关文章: 分类数据 CLOPE p-CLOPE 并行聚类 MapReduce
【摘要】:CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比.
【作者单位】: 东华大学计算机科学与技术学院;浙江万里学院计算机与信息学院;
【基金】:国家自然科学基金项目(61103046) 上海市自然科学基金项目(11ZR1401200)~~
【分类号】:TP311.13
【正文快照】: 结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比.传统的针对数值数据的聚类算法虽然在不断取得突破[1],但并不适合处理分类数据[2].分类数据由非数值的属性组成.对分
【相似文献】
相关期刊论文 前10条
1 韩秀苓,程凡,高建林,李传光;管道自适应有源噪声控制算法[J];Journal of Beijing Institute of Technology(English Edition);1995年01期
2 陶新民;徐晶;童智靖;刘玉;;不均衡数据下基于阴性免疫的过抽样新算法[J];控制与决策;2010年06期
3 赵国峰;闫亮;;用于快速流分类的关键字分解Hash算法[J];计算机工程;2010年16期
4 郭雷勇;谭洪舟;高守平;郭笑梅;;RFID系统阅读器反碰撞算法分类与研究[J];计算机技术与发展;2009年09期
5 郝水侠,李凡长;多Agent的并行思智算法[J];计算机工程与应用;2004年10期
6 刘贝家;方景龙;;基于SVDD的多示例学习算法[J];科技通报;2011年02期
7 田大东;邓伟;;基于不同惩罚系数的SMO改进算法[J];计算机应用;2008年09期
8 许敏;王士同;顾鑫;;TL-SVM:一种迁移学习算法[J];控制与决策;2014年01期
9 李雅林;张化祥;张顺;;基于近邻加权及多示例的多标记学习改进算法[J];计算机工程与应用;2013年16期
10 罗玉华,李三立;RISC多发射结构中循环优化的软件流水算法[J];计算机学报;1993年09期
相关博士学位论文 前10条
1 吴涛;粒子群及量子行为粒子群优化算法的改进研究[D];西南交通大学;2014年
2 徐勇;分布式压缩感知的算法及其应用研究[D];中国地质大学;2015年
3 蔡先发;基于图的半监督算法及其应用研究[D];华南理工大学;2013年
4 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
5 李美安;普适分布式互斥算法及应用[D];电子科技大学;2007年
6 孙岩;贝叶斯网络结构学习算法研究与应用[D];大连理工大学;2010年
7 吴伟宁;主动学习算法中采样策略研究[D];哈尔滨工业大学;2013年
8 汪庆淼;基于目标函数的模糊聚类新算法及其应用研究[D];江苏大学;2014年
9 戴朝华;搜寻者优化算法及其应用研究[D];西南交通大学;2009年
10 李小冬;核极限学习机的理论与算法及其在图像处理中的应用[D];浙江大学;2014年
相关硕士学位论文 前10条
1 李超;基于标签传播及适合度的社团聚类算法研究[D];西南大学;2015年
2 刘晨曦;RFID定位VIRE算法的研究与改进[D];贵州师范大学;2015年
3 马睿;利用岩石光谱和改进的PC算法实现矿物的识别[D];新疆大学;2015年
4 万猛;推荐系统攻击检测算法的研究[D];电子科技大学;2014年
5 刘排;基于OMNeT++的无线传感器网络节点定位改进算法的研究[D];河北工业大学;2015年
6 陈辰;无线通信领域MIMO检测类算法的硬件加速技术研究[D];国防科学技术大学;2013年
7 段沛博;分布式约束优化算法若干问题研究[D];东北大学;2013年
8 王丽红;基于模糊聚类的社区发现算法研究[D];浙江工业大学;2014年
9 刘恒;基于重复数的最短循环请求集生成算法研究[D];内蒙古农业大学;2014年
10 米秀明;基于进化算法的角色挖掘算法[D];北京交通大学;2014年
,本文编号:1336893
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1336893.html