基于社团发现的微博群体划分与特征提取
发布时间:2017-12-19 11:43
本文关键词:基于社团发现的微博群体划分与特征提取 出处:《北京邮电大学》2015年硕士论文 论文类型:学位论文
更多相关文章: 社会化信息网络 Logistic回归 特征提取 群体划分
【摘要】:在互联网技术蓬勃发展的今天,微博是一个全民织网的社会化信息平台。微博个性化服务的关键是将微博用户划分成具有共同特征的群体。如何进行微博用户群体划分?针对这个问题,本文提出了微博用户的上下层模型和用户相似性模型,从模型中提取有价值的特征,在此基础上提出微博群体划分的方法。 首先,本文结合统计数据论证了微博属于社会化信息网络、微博的结构符合幂律分布,并基于微博信息的有向性提出了不同于关系网络的抽象上下层模型。由于微博网络的幂律性,研究上层网络的用户可以带来更大的效益,我们选取PageRank值最高的前10%的节点作为抽象上层用户,针对这些用户进行群体划分和特征提取。其次,综合考虑用户之间的静态特征相似性、拓扑结构相似性和微博文本相似性,建立Logistc Regression (LR)模型,提出了用户相似性的计算方法,利用L1正则化进行特征提取,得到对用户相似性有价值的特征。最后,定义一种有效的节点距离计算方法,利用K-Means算法对微博用户进行群体划分。 本文在提取的新浪微博10万用户构成的完备图上利用Spark平台对模型的结果进行了验证。实验结果表明,用户相关性模型预测两个用户是否处于同一个圈子的准确率达82.98%;L1正则化的Logistic回归模型的在测试集上的预测准确率达77.27%;基于本文的微博群体划分算法,对于本数据集使用K-means聚类时的最佳社团数为460,此时得到的RJ值约为0.69。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【参考文献】
中国期刊全文数据库 前5条
1 闫强;吴联仁;郑兰;;微博社区中用户行为特征及其机理研究[J];电子科技大学学报;2013年03期
2 黄健斌;钟翔;孙鹤立;茆婉婷;;基于相似性模块度最大约束标记传播的网络社团发现算法[J];北京大学学报(自然科学版);2013年03期
3 赵之滢;于海;朱志良;汪小帆;;基于网络社团结构的节点传播影响力分析[J];计算机学报;2014年04期
4 王s,
本文编号:1307797
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1307797.html