新浪微博社群发现方法研究
发布时间:2024-03-26 19:29
随着社交网络的发展与普及,每天产生的数据量都在以亿级别的速度骤增,通过对用户在社交媒体上发表的言论进行数据分析,可以得出很多有价值的信息。目前,在新浪微博这个主流社交媒体上发展的数据研究已经取得了一定的成果,但是在社群发现上使用的方法丰富性仍然有所欠缺。本文旨在研究社群发现上提出一种新的思路,从微博内容的关键词出发,找出具有相似特征的群体,主要内容如下:首先,本文根据新浪微博的数据分布结构,用户粉丝群,用户信息等特征,提出一种新的数据爬取策略,以用户ID为出发点,选取种子用户,爬取用户的粉丝群,资料特征,微博内容,微博下互动情况等信息,并根据收集到的数据,提出了数据过滤等方法。其次,本文对收集到的数据,从微博的地区分布、微博发布时间、微博互动等角度进行了分析,从这几个方面找出了数据集中用户使用微博的特点,了解到用户在微博上的习惯与互动特点。根据微博互动性,以互动关系代替了传统的关注关系,引入熵力模型绘制出了社交网络图,找出了数据集的互动特点。最后,本文从微博关键词出发,使用TF-IDF算法进行词权计算,找出每个用户具有代表性的词权值,使用K-MEANS算法对所有用户进行聚类,统计出7种...
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
本文编号:3939573
【文章页数】:45 页
【学位级别】:硕士
【部分图文】:
图1-1文章技术路线图
新疆大学硕士研究生学位论文1.3研究内容与论文结构全文共有五章,内容安排如下:第一章:绪论,本章内容主要介绍了研究意义与背景、国内外研究现状。第二章:新浪微博数据的爬取方法与数据过滤方法。第三章:对所爬取的数据,从微博的地区分布、微博发布时间、用户互动等角度进行了分析。第四章:....
图2-1获取数据流程图
新疆大学硕士研究生学位论文取该用户的所有微博页面户ID进行爬取(即对每个的数据保存到txt文本中。,每位用户爬取前200名0名)的数据,重复此方法
图3-1用户地区分布
8图3-1用户地区分布如图3-1所示,可见,用户的所在地遍布全国各地。图中,颜色区域代表有微博用户出现。3.2数据微博发布特点分析每个用户的粉丝数,关注数,微博数一定程度上反映着该用户在社交媒体中的影响力,受欢迎程度以及活跃度,研究群体的整体数量分布有助于了解这个
图3-2关注分布直方图
图3-2关注分布直方图注数低于64的用户:粉丝数低于32的占比例67.5%64.3%。可见,关注数在此区间的用户主要为低活跃型64-256的用户:粉丝数在64-256的比例为47.3%,丝数在64以下的比例为20.1%,为阅读性用户(关丝数在102....
本文编号:3939573
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3939573.html