一种结合上下文语义的短文本聚类算法
本文关键词:一种结合上下文语义的短文本聚类算法,,由笔耕文化传播整理发布。
【摘要】:短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。
【作者单位】: 电子工程学院;
【关键词】: 短文本聚类 上下文语义 奇异值分解 K均值算法
【基金】:国家自然科学基金(61273302)资助
【分类号】:TP391.1
【正文快照】: 本文受国家自然科学基金(61273302)资助。1引言智能移动终端的普及使得移动互联网成为内容发布与共享的主要平台。由于移动终端屏幕相对较小,移动互联网中的内容更多以短文本形式呈现。如何从海量短文本数据中自动分析提取有价值的信息成为亟待解决的问题。文本聚类技术通过将
【相似文献】
中国期刊全文数据库 前10条
1 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
2 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
3 甘克勤;丛超;张宝林;孙旭凯;;基于划分的文本聚类算法在标准文献中的试验与对比研究[J];标准科学;2013年10期
4 莫紫娟;;试论短文本聚类算法在微博的应用[J];科技致富向导;2014年09期
5 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
6 张书敏;;短文本聚类算法研究[J];科技致富向导;2013年09期
7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
8 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
9 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
10 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期
中国重要会议论文全文数据库 前1条
1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国硕士学位论文全文数据库 前10条
1 程杨;中文短文本聚类算法的研究[D];吉林大学;2016年
2 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
3 刘龙海;基于成对约束的半监督文本聚类算法研究[D];重庆大学;2011年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 潘启蒙;文本聚类算法的研究与实现[D];吉林大学;2008年
6 郭增新;基于语义的文本聚类算法研究[D];西安电子科技大学;2012年
7 高利波;文本聚类算法的研究及应用[D];电子科技大学;2013年
8 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年
9 翟献民;维吾尔语文本聚类算法研究[D];新疆大学;2013年
10 冯晓云;基于云计算的文本聚类算法研究[D];南京理工大学;2014年
本文关键词:一种结合上下文语义的短文本聚类算法,由笔耕文化传播整理发布。
本文编号:443147
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/443147.html