当前位置:主页 > 科技论文 > 软件论文 >

基于密度峰值优化的K-means文本聚类算法

发布时间:2018-03-25 21:15

  本文选题:文本聚类 切入点:密度峰值 出处:《计算机工程与设计》2017年04期


【摘要】:传统K-means算法中初始质心选定的随机性可能使算法陷入局部最优解,使聚类结果不够准确。改进初始质心的选择算法,为各样本点引入局部密度指标,根据其局部密度分布情况,选取处于密度峰值的点作为初始质心,得到稳定的离收敛质心很近的初始质心,减少算法迭代次数,提高运行效率,降低陷入局部最优的概率,显著提高聚类准确性。实验结果表明,与几种已有算法相比,该算法在文本聚类中有明显优势。
[Abstract]:The randomness of the initial centroid selection in the traditional K-means algorithm may make the algorithm fall into the local optimal solution and make the clustering result inaccurate. The selection algorithm of the initial centroid is improved and the local density index is introduced for each sample point according to its local density distribution. The point at the peak of density is selected as the initial centroid to obtain the stable initial centroid close to the convergent centroid, which reduces the number of iterations of the algorithm, improves the running efficiency, and reduces the probability of falling into the local optimum. The experimental results show that this algorithm has obvious advantages in text clustering compared with several existing algorithms.
【作者单位】: 武汉大学计算机学院;
【基金】:国家自然科学基金项目(60975050) 中央高校基本科研业务费专项基金项目(2452015197,2452015194,2452015200)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前8条

1 贾瑞玉;李振;;基于最小生成树的层次K-means聚类算法[J];微电子学与计算机;2016年03期

2 韩岩;李晓;;加速大数据聚类K-means算法的改进[J];计算机工程与设计;2015年05期

3 翟东海;鱼江;高飞;于磊;丁锋;;最大距离法选取初始簇中心的K-means文本聚类算法的研究[J];计算机应用研究;2014年03期

4 熊忠阳;陈若田;张玉芳;;一种有效的K-means聚类中心初始化方法[J];计算机应用研究;2011年11期

5 仝雪姣;孟凡荣;王志晓;;对k-means初始聚类中心的优化[J];计算机工程与设计;2011年08期

6 陈建超;胡桂武;杨志华;严桂夺;;基于全局性确定聚类中心的文本聚类[J];计算机工程与应用;2011年10期

7 徐建民;王金花;马伟瑜;;利用本体关联度改进的TF-IDF特征词提取方法[J];情报科学;2011年02期

8 田森平;吴文亮;;自动获取k-means聚类参数k值的算法[J];计算机工程与设计;2011年01期

【共引文献】

相关期刊论文 前10条

1 田诗宵;丁立新;郑金秋;;基于密度峰值优化的K-means文本聚类算法[J];计算机工程与设计;2017年04期

2 金铭;汪友生;边航;王雨婷;;一种基于视觉词袋模型的图像检索方法[J];计算机应用与软件;2017年04期

3 李梅莲;;基于密度分布的K-Means初始聚类中心选择算法[J];许昌学院学报;2017年02期

4 吴金李;张建明;;基于二分K-means的协同过滤推荐算法[J];软件导刊;2017年01期

5 周小玲;章新友;仵倚;齐城成;;基于模糊理论的硕士生复试考评方法的探讨[J];中医药管理杂志;2017年04期

6 李晓瑜;俞丽颖;雷航;唐雪飞;;一种K-means改进算法的并行化实现与应用[J];电子科技大学学报;2017年01期

7 罗可;易斌;;一种基于改进蜂群的K-means聚类算法[J];长沙理工大学学报(自然科学版);2016年04期

8 曾庆山;张贵勇;;基于距离阈值的自适应K-均值聚类算法[J];郑州大学学报(理学版);2016年04期

9 刘澎;陆介平;;基于MapReduce的改进k-means文本聚类算法[J];信息技术;2016年11期

10 宋先强;高仲合;刘泷;国凯平;;基于数据挖掘的网络异常检测方法的研究[J];电子技术;2016年11期

【二级参考文献】

相关期刊论文 前10条

1 王秀华;;基于随机抽样的加速K-均值聚类方法[J];计算机与现代化;2013年12期

2 徐沁;罗斌;;结合mean-shift与MST的K-means聚类算法[J];计算机工程;2013年12期

3 王秀华;;一种并行的加速k-均值聚类方法[J];电脑知识与技术;2013年18期

4 李翔宇;王开军;郭躬德;;基于网格最小生成树的聚类算法选择[J];模式识别与人工智能;2013年01期

5 熊忠阳;陈若田;张玉芳;;一种有效的K-means聚类中心初始化方法[J];计算机应用研究;2011年11期

6 胡伟;;改进的层次K均值聚类算法[J];计算机工程与应用;2013年02期

7 张世博;;基于优化初始中心点的K-means文本聚类算法[J];计算机与数字工程;2011年10期

8 黄韬;刘胜辉;谭艳娜;;基于k-means聚类算法的研究[J];计算机技术与发展;2011年07期

9 周爱武;崔丹丹;潘勇;;一种优化初始聚类中心的K-means聚类算法[J];微型机与应用;2011年13期

10 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期

【相似文献】

相关期刊论文 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

相关博士学位论文 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

相关硕士学位论文 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年



本文编号:1664903

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1664903.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户27356***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com