一种基于密度峰值发现的文本聚类算法
本文关键词:一种基于密度峰值发现的文本聚类算法
【摘要】:提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。
【作者单位】: 山东师范大学信息科学与工程学院;山东交通学院信息科学与电气工程学院;
【关键词】: 密度 文本聚类 特征项 向量距离
【基金】:国家自然科学基金资助项目(61373148) 国家社会科学基金资助项目(12BXW040) 山东省自然基金资助项目(ZR2012FM038) 山东省优秀中青年科学家奖励基金资助项目(BS2013DX033) 教育部人文社科基金资助项目(14YJC860042) 山东省社科规划项目(12BXWJ01) 山东省高等学校科技计划项目(J12LN21)
【分类号】:TP391.1
【正文快照】: 0引言文本聚类是文本挖掘与信息检索领域的核心问题之一,因此文本聚类算法的研究是该领域的研究热点。文本聚类的核心问题是如何将聚类方法应用于文本挖掘领域。聚类的目的是将大量数据根据其相互之间的相似程度进行划分,形成若干个不同的类簇,类簇内的数据相似程度高,类簇之
【参考文献】
中国期刊全文数据库 前2条
1 赵卫中;马慧芳;李志清;史忠植;;一种结合主动学习的半监督文档聚类算法[J];软件学报;2012年06期
2 张云;冯博琴;麻首强;刘连梦;;蚁群-遗传融合的文本聚类算法[J];西安交通大学学报;2007年10期
【共引文献】
中国期刊全文数据库 前10条
1 徐淑坦;王朝勇;孙延风;;一种不均衡数据的改进蚁群分类算法[J];吉林大学学报(理学版);2011年04期
2 马世霞;刘丹;贾世杰;;基于蚁群算法的文本聚类算法[J];计算机工程;2010年08期
3 谢科;;融合协同训练和两层主动学习策略的SVM分类方法[J];湖南师范大学自然科学学报;2014年01期
4 王永贵;林琳;刘宪国;;结合双粒子群和K-means的混合文本聚类算法[J];计算机应用研究;2014年02期
5 孟光胜;赵志宇;;基于两层主动学习策略的SVM分类方法[J];河南师范大学学报(自然科学版);2014年02期
6 张静;聂章龙;;基于主动学习的动态模糊聚类算法[J];计算机与现代化;2014年05期
7 李艳玲;颜永红;;中文口语理解弱监督训练方法[J];计算机应用;2015年07期
8 苏赢彬;杜学绘;夏春涛;曹利峰;陈华成;;基于半监督聚类的文档敏感信息推导方法[J];计算机科学;2015年10期
9 周国娟;;基于蚁群算法的文本聚类处理的研究[J];通信技术;2010年11期
10 孟凡荣;张可为;朱牧;;基于密度的半监督复杂网络聚类算法[J];计算机工程与设计;2014年01期
中国重要会议论文全文数据库 前2条
1 姜栋;郑康锋;胡影;;基于蚁群的启发式网络拓扑图布局算法[A];第九届中国通信学会学术年会论文集[C];2012年
2 Ping Zhou;Jiayin Wei;Yongbin Qin;;A Semi-Supervised Text Clustering Algorithm with Word Distribution Weights[A];2013教育技术与信息系统国际会议论文集[C];2013年
中国博士学位论文全文数据库 前8条
1 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
3 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
4 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
5 王妍妍;基于序列聚类的软件漏洞检测方法研究[D];燕山大学;2012年
6 刘丽敏;选择性聚类融合算法研究[D];中南大学;2013年
7 张捷;进化算法及智能数据挖掘若干问题研究[D];西安电子科技大学;2013年
8 费绍栋;网络舆情突发事件检测与追踪关键技术研究[D];山东师范大学;2015年
中国硕士学位论文全文数据库 前9条
1 吴启纲;中文文本聚类算法的研究与实现[D];西安电子科技大学;2010年
2 王慧;C-均值聚类算法的改进研究[D];河南大学;2011年
3 刘文静;基于标签词抽取的搜索结果聚类研究[D];北京邮电大学;2012年
4 张文明;文本案例知识库构建的关键技术研究[D];西北大学;2010年
5 唐媛;基于蚁群的文本文档聚类技术研究[D];武汉科技大学;2010年
6 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年
7 姜栋;网络拓扑发现及显示技术研究[D];北京邮电大学;2013年
8 许钰;基于半监督SVM主动学习的文本分类算法研究[D];兰州交通大学;2013年
9 郭丁;基于密度检测和信息增益的半监督kmeans算法[D];河北大学;2015年
【二级参考文献】
中国期刊全文数据库 前5条
1 吴春明;陈治;姜明;;蚁群算法中系统初始化及系统参数的研究[J];电子学报;2006年08期
2 黄永青;梁昌勇;张祥德;;基于均匀设计的蚁群算法参数设定[J];控制与决策;2006年01期
3 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
4 李昆仑;曹铮;曹丽苹;张超;刘明;;半监督聚类的若干新进展[J];模式识别与人工智能;2009年05期
5 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
【相似文献】
中国期刊全文数据库 前10条
1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期
4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期
5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期
7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期
中国重要会议论文全文数据库 前1条
1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国硕士学位论文全文数据库 前10条
1 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
2 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年
3 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
4 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年
5 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年
6 高利波;文本聚类算法的研究及应用[D];电子科技大学;2013年
7 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年
8 翟献民;维吾尔语文本聚类算法研究[D];新疆大学;2013年
9 冯晓云;基于云计算的文本聚类算法研究[D];南京理工大学;2014年
10 郑方;蚁群文本聚类算法的研究与应用[D];西安电子科技大学;2013年
,本文编号:650423
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/650423.html