当前位置:主页 > 管理论文 > 信息管理论文 >

基于Calinski-Harabasz改进SSLOK-means聚类的微博用户特征研究

发布时间:2020-12-04 06:07
  新浪微博作为国内主流的社交网络平台,同时也是各类资讯发布的主要渠道,微博具有实时、公开、简洁等自身特性,这成就了其庞大的用户群,新浪微博的用户活跃度在国内社交网络平台中处于领先地位。用户在平台中产生的数据不断累积,形成的社交大数据可为商业决策等提供数据支撑,但在产生海量数据的同时也引起了信息过载的问题,用户面对庞杂的数据越来越难找到符合自己兴趣偏好的信息和内容,这极大的降低了大数据的利用效率,影响用户体验,因此利用微博中的数据对用户特征进行分析研究,进而为用户提供优质的个性化推荐是改善信息过载问题的关键。为了有效的利用海量大数据中的价值,数据挖掘技术应运而生,作为一种数据挖掘算法,聚类算法在社交网络中得到了广泛应用,为微博运营商分析用户数据提供了新方法和思路。K-means算法是常用的聚类分析的方法之一,但当其分析大批量数据时,会面临聚类效率较低的问题,新近提出的SSLOK-means聚类算法解决了K-means这一缺陷,但该算法需要提前人为设置聚类个数,阻碍了算法的便捷使用,而Calinski-Harabasz有效性函数的出现改善了K-means需提前设置k值的不足。本文基于Cali... 

【文章来源】:北京外国语大学北京市 211工程院校 教育部直属院校

【文章页数】:40 页

【学位级别】:硕士

【部分图文】:

基于Calinski-Harabasz改进SSLOK-means聚类的微博用户特征研究


图1聚类算法分类??2.3.3_3聚类分析??

函数,聚类,算法,质量判定


在SSLOK-means聚类时,为了使算法能在我们可控制的范围内收敛结束。??定义一个结束的标志f?=?le?-?8,若在两次SSLOK-means聚类的过程中,所有??的聚类中心偏移量求和move?<=£,便认为聚类过程终结,算法结束。??2.3.5?Calinski-Harabasz?函数改进?k-means?算法??正如2.3.3节所顾虑的,在应用k-means聚类算法时,存在需要提前设置々??值的缺点,在进行大批量数据集的聚类运算或者先验知识较为缺乏时,确定合??适的(值是不太容易的。为了解决这项难题,研究学者探究了多个确定最佳A??值的方法。以“最优聚类质量判定原则”:组内元素之间距离最小并且组间距??离最大为依据,提出来多种判别聚类质量的函数:DB函数、DI函数和??Calinski-Harabasz?(CH)函数,众多学者经过研宄之后的结果表明CH函数具??有最佳的判定效果。??13??

移出,类别,管道,函数


在SSLOK-means聚类时,为了使算法能在我们可控制的范围内收敛结束。??定义一个结束的标志f?=?le?-?8,若在两次SSLOK-means聚类的过程中,所有??的聚类中心偏移量求和move?<=£,便认为聚类过程终结,算法结束。??2.3.5?Calinski-Harabasz?函数改进?k-means?算法??正如2.3.3节所顾虑的,在应用k-means聚类算法时,存在需要提前设置々??值的缺点,在进行大批量数据集的聚类运算或者先验知识较为缺乏时,确定合??适的(值是不太容易的。为了解决这项难题,研究学者探究了多个确定最佳A??值的方法。以“最优聚类质量判定原则”:组内元素之间距离最小并且组间距??离最大为依据,提出来多种判别聚类质量的函数:DB函数、DI函数和??Calinski-Harabasz?(CH)函数,众多学者经过研宄之后的结果表明CH函数具??有最佳的判定效果。??13??

【参考文献】:
期刊论文
[1]面向结构复杂数据集的模糊聚类有效性指标[J]. 唐益明,丰刚永,任福继,胡相慧,张有成.  电子测量与仪器学报. 2018(04)
[2]一种基于词义和词频的向量空间模型改进方法[J]. 邓晓衡,杨子荣,关培源.  计算机应用研究. 2019(05)
[3]基于用户兴趣主题模型的个性化推荐研究[J]. 熊回香,杨雪萍,高连花.  情报学报. 2017(09)
[4]基于决策树算法的爬虫识别技术[J]. 刘宇,程学林.  软件. 2017(07)
[5]一种改进的向量空间模型的文本表示算法[J]. 张小川,于旭庭,张宜浩.  重庆理工大学学报(自然科学). 2017(01)
[6]大数据聚类算法综述[J]. 海沫.  计算机科学. 2016(S1)
[7]基于用户行为特征的微博转发预测研究[J]. 刘玮,贺敏,王丽宏,刘悦,沈华伟,程学旗.  计算机学报. 2016(10)
[8]移动社交网站中的信息过载与个性化推荐机制研究[J]. 王娜,任婷.  情报杂志. 2015(08)
[9]聚类算法综述[J]. 伍育红.  计算机科学. 2015(S1)
[10]微博客用户特征分析及分类研究——以“新浪微博”为例[J]. 彭希羡,朱庆华,刘璇.  情报科学. 2015(01)



本文编号:2897132

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/2897132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7163***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com