基于两种改进的聚类算法对新浪微博用户信息的研究
发布时间:2020-03-30 17:02
【摘要】:近几年来新浪微博迅猛发展,已经逐渐成为人们生活中不可或缺的一部分。新浪微博作为一个信息传播平台,它使得人们能够及时的获取第一手信息,同时作为一个社交平台,它让人们可以通过一种崭新的方式与他人交往。在新浪微博中,用户具有核心地位,无论是为了在微博平台上进行广告营销,还是对微博信息进行舆情监测,对不同微博用户群体的信息进行提炼都是至关重要的一步 本文以微博用户信息数据作为研究对象,以用户的粉丝数、微博数、关注数、互粉数以及博龄数的取值作为依据,对微博用户群体进行聚类划分。首先将数据可视化从而全面了解了数据的分布特征,然后应用标准化方法对数据进行了预处理。由于数据量很大(21481条用户信息),,且由于大于三的维度从而难以对数据的聚类趋势进行直观的评估。对此,本文采用了改进后的K-Means算法和TwoStep算法对数据进行聚类分析。改进的K-Means算法是将传统的K-Means算法与C-H指数相结合,从而可以自行的选择最终聚类个数,TwoStep算法则将传统的系统聚类算法与Birch算法相结合,进而解决了传统系统聚类算法扩展性较差的问题,但在计算过程中需要人为的选取阀值T。通过这两种改进后的方法最终得到了两种不同的聚类结果,在对各个类别进行分析后本文对不同的类别予以命名 最后,本文应用三种不同的度量指数来对聚类结果质量进行评价,结果显示改进后K-Means算法的聚类结果质量较好。其原因可能是TwoStep算法中的预聚类造成了样本信息量的损失以及人为选取的阀值T不是最佳值。
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:C81
本文编号:2607807
【学位授予单位】:首都经济贸易大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:C81
【引证文献】
相关期刊论文 前2条
1 张士豪;顾益军;张俊豪;;微博自动分类系统设计[J];信息网络安全;2016年01期
2 张士豪;顾益军;张俊豪;;基于用户聚类的热门微博分类研究[J];信息网络安全;2015年07期
本文编号:2607807
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2607807.html