当前位置:主页 > 管理论文 > 移动网络论文 >

基于BTM和K-means的微博话题检测

发布时间:2018-09-15 06:37
【摘要】:近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等)在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。
[Abstract]:In recent years, the development of Weibo and other social networks has provided convenience for people to communicate. As each Weibo is limited to 140 words, so a large number of short text information. Finding topics from short texts is becoming an important topic. Traditional topic models (such as probabilistic latent semantic analysis, (PLSA), potential Delikley assignment (LDA), etc.) face serious data sparsity problems in dealing with short text. In addition, when the data set is concentrated and the difference between topic documents is obvious, K-means clustering algorithm can cluster the differentiated topics. BTM topic model is introduced to deal with short texts such as Weibo data to alleviate the problem of data sparsity. At the same time, the K-means clustering algorithm is integrated to cluster the topics found in the BTM model. Experiments in Sina Weibo's essay book show the effectiveness of this method.
【作者单位】: 昆明理工大学信息工程与自动化学院;
【基金】:地区科学基金项目:基于统计机器翻译和自动文摘的查询扩展研究(61363045) 云南省自然科学基金重点项目(2013FA130) 科技部中青年科技创新领军人才项目(2014HE001)资助
【分类号】:TP393.092;TP391.1

【相似文献】

相关期刊论文 前10条

1 张亚萍;胡学钢;;基于K-means的朴素贝叶斯分类算法的研究[J];计算机技术与发展;2007年11期

2 刘运;殷建平;程杰仁;蔡志平;;基于k-Means改进算法的分布式拒绝服务攻击检测[J];计算机工程与科学;2008年12期

3 张济强;高玉良;;遗传模拟退火算法在k-means聚类中的应用[J];电脑知识与技术;2012年07期

4 贾花萍;李尧龙;哈渭涛;史晓影;;K-means聚类神经网络分类器在睡眠脑电分期中的应用研究[J];河南科学;2012年06期

5 李学勇;高国红;孙甲霞;;基于互信息和K-means聚类的信息安全风险评估[J];河南师范大学学报(自然科学版);2011年02期

6 郁雪;李敏强;;一种结合有效降维和K-means聚类的协同过滤推荐模型[J];计算机应用研究;2009年10期

7 屈新怀;高万里;丁必荣;李朕;;基于聚类数和初始值的K-means算法改进研究[J];组合机床与自动化加工技术;2011年04期

8 边鹏;赵妍;苏玉召;;一种改进的K-means算法最佳聚类数确定方法[J];现代图书情报技术;2011年09期

9 宗瑜;金萍;李明楚;;BK-means:骨架初始解K-means[J];计算机工程与应用;2009年14期

10 韩凌波;;一种新的K-means最佳聚类数确定方法[J];现代计算机;2013年30期

相关会议论文 前6条

1 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年

2 陈磊;胡佳敏;严华;;K-means算法在散货船代货运系统中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

3 郑建军;甘仞初;贺跃;毕思飞;;一种基于k-means的聚类集成方法[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年

4 张望;王辉;;个性化服务中的并行K-Means聚类算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

5 江华;王翰虎;陈梅;;一种基于K-means聚类分组的P2P超结点模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

6 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年

相关硕士学位论文 前10条

1 陈智;基于K-means聚类算法的机会网络群组移动模型及其长相关性研究[D];湘潭大学;2015年

2 许允栋;K-means聚类算法的改进与应用[D];广西师范大学;2015年

3 丁斌;基于布谷鸟算法的K-means聚类挖掘算法研究[D];合肥工业大学;2015年

4 贺艳芳;熵加权多视角核k-means聚类算法的研究[D];郑州大学;2016年

5 梁云昭;基于K-means的围棋特征提取方法研究[D];北京理工大学;2015年

6 于洋洋;基于并行K-MEANS聚类分析的社群发现算法研究[D];东北大学;2012年

7 崔晓丽;基于MapReduce的海量数据K-means聚类算法研究[D];大连理工大学;2014年

8 高存彬;基于K-Means聚类法的水团划分算法和可视化研究[D];中国海洋大学;2008年

9 刘建国;改进的K-means算法及其在采油数据分析中的应用[D];北京邮电大学;2010年

10 陈翠卓;移动平台下基于K-means的租房信息聚类算法研究与实现[D];华中师范大学;2014年



本文编号:2244071

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2244071.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f830c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com