基于优化密度的耦合空间LDA文本聚类算法研究
本文选题:文本聚类 切入点:耦合空间模型 出处:《计算机应用研究》2017年07期
【摘要】:针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,该算法的文本聚类精度更高、聚类效果更优。
[Abstract]:In order to solve the problem that the traditional spatial vector model only uses word frequency statistics to express the text and the clustering effect of the high-dimensional text data is decreased when the text is represented by the traditional spatial vector model.A coupled space LDA text clustering algorithm based on optimal density is proposed.The proposed algorithm uses the coupled space model and the LDA topic model to calculate the text similarity, and optimizes the threshold sensitivity problem to determine the threshold radius of different density regions.The experimental results show that compared with the improved DBSCAN text clustering algorithm and the R-DBSCAN text clustering algorithm, this algorithm has higher text clustering accuracy and better clustering effect.
【作者单位】: 辽宁工程技术大学电子与信息工程学院;
【基金】:国家自然科学基金资助项目(61402212) 辽宁省高等学校杰出青年学者成长计划资助项目(LJQ2015045) 辽宁省自然科学基金资助项目(2015020098) 辽宁省教育厅城市研究院一般项目(LJCL008)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期
4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期
5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期
7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期
相关会议论文 前1条
1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关硕士学位论文 前10条
1 范新梅;基于微博的舆情分析系统设计与实现[D];河北科技大学;2015年
2 程杨;中文短文本聚类算法的研究[D];吉林大学;2016年
3 汪丹丹;中文文本聚类算法研究[D];苏州大学;2016年
4 李解;面向个性化主题的半监督文本聚类算法研究[D];贵州大学;2016年
5 林红静;基于K-means的微博短文本聚类算法研究[D];海南大学;2016年
6 赵彬;基于语义的短文本聚类算法研究[D];辽宁工程技术大学;2015年
7 陈可;文本聚类算法及其在话题发现中的应用研究[D];北方工业大学;2017年
8 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
9 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年
10 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
,本文编号:1713313
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1713313.html