基于CTM模型与K-means算法融合的文本聚类研究
发布时间:2018-03-01 05:13
本文关键词: K-means算法 CTM模型 融合 文本聚类 出处:《情报理论与实践》2017年11期 论文类型:期刊论文
【摘要】:[目的/意义]针对CTM模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用CTM模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集,以F值为评价指标,利用R语言中的k-means函数和topicmodels包,比较K-means算法、CTM模型、CKM算法的聚类效果。[结果 /结论]结果表明,与单纯使用K-means算法、CTM模型相比,CKM算法的聚类效果更优,稳定性更好。
[Abstract]:[objective / significance] in view of the shortcomings of CTM model and K-means algorithm in text clustering, a CKM algorithm combining the two algorithms is proposed. The CTM model is used to determine the clustering number and initial clustering center. Using K-means algorithm to cluster. [method / process] taking Web of Science as data source, establishing a multidisciplinary literature set covering 6 topics, taking F value as evaluation index, using k-means function and topicmodels package in R language. The clustering effect of K-means algorithm is compared with that of K-means algorithm. [results / conclusion] the results show that the clustering effect of CKM algorithm is better and the stability is better than that of using K-means algorithm alone.
【作者单位】: 曲阜师范大学传媒学院;
【基金】:国家社会科学基金项目“文献内容分析与引文分析融合的知识挖掘与发现研究”的成果,项目编号:16BTQ074
【分类号】:G254
【相似文献】
相关期刊论文 前5条
1 何文静;何琳;;基于社会标签的文本聚类研究[J];现代图书情报技术;2013年Z1期
2 赵辉;刘怀亮;;面向用户生成内容的短文本聚类算法研究[J];现代图书情报技术;2013年09期
3 刘佳;宋之杰;;基于文本聚类的稀土萃取技术专利信息分析[J];燕山大学学报;2014年03期
4 洪韵佳;许鑫;;基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J];现代图书情报技术;2013年12期
5 文炯;;应用多层次聚类方法挖掘图书馆微博数据[J];中华医学图书情报杂志;2014年04期
相关会议论文 前1条
1 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关硕士学位论文 前1条
1 李海峰;基于概念格的Web文本聚类过程模型研究[D];吉林大学;2010年
,本文编号:1550550
本文链接:https://www.wllwen.com/tushudanganlunwen/1550550.html
教材专著