基于网络爬虫的社区发现及意见领袖挖掘方法研究
发布时间:2021-06-27 14:29
随着互联网时代的到来,人们完成信息交流的方式不再局限于现实媒介,许多人开始使用互联网进行信息交流,在线社交平台便是其中的一种。微博作为其中一种网络信息交流平台受到众多人们的喜爱。在使用微博的用户越来越多后,大量的用户集群使微博具有社交网络特性,通过用户间的关注关系、转发功能使用户间存在紧密的联系,因此对微博社交网络进行分析逐渐成为人们研究的热点。本文对于微博社会网络分析的研究主要有以下几个方面:1、讨论了本文主要研究内容的研究现状,并讨论了相关理论概念及技术。2、通过分布式爬虫系统获取社交网络平台中的资源,以微博为目标,搭建了完整的分布式爬虫体系,分析研究了反爬虫技术以及解决办法,完成对数据的分析、处理和存储,为之后的工作提供数据基础。3、进一步分析通过分布式爬虫获取的微博数据,对爬取到的微博用户进行社区划分,通过Spark并行化框架实现基于GraphX的并行化Louvain算法,使算法的运行效率显著提升。4、学习研究了社区意见领袖发现算法,以PageRank算法的思想为根据,对比分析了社区网络与网页链接网络的相似性,发现社区网络中的用户的用户初始影响力特性以及用户交互行为影响力特性,...
【文章来源】:北京印刷学院北京市
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
HTML DOM Tree实例
无论在现实中还是在网络中,每个人都有自己的社交网络,因为每个人都会有家人、朋友或者熟人。而通过网络,这个社交网路的范围会被扩大,人们可以通过网络连接到许多更多不在我们社交范围内的人,在网络中人们可以结识更多与自己志趣相投的人或者一些有共同关注的人。因此在社交平台中,大多数用户会拥有比现实中更庞大的社交范围。由于社交范围的扩大,越来越多有相同爱好或属性的人自发的相互关注就逐渐的形成了社区。通俗的来讲,社区是网络中相似对象的集合,集合内部的用户节点距离较近、属性相似。如图2-2所示,图中的点代表不同的用户,点与点之间的连线则代表用户间的联系。由于现代生活的多面性,一个人可能会属于多个社区。甚至,社区会重合或者说嵌套。
GN算法示例图如图2-3所示[15]:假设存在一个有m条边和n个节点的社区网络,GN算法完成该社区计算的时间复杂度为。这使得GN算法在计算边介数时会耗费大量的时间,除此之外GN算法还存在不能判断停止位置的缺点。虽然GN算法有很多缺点,但该算法的思想为后面的研究者们提供了宝贵的思路。
【参考文献】:
期刊论文
[1]加权有向图社区发现的子系统划分[J]. 杨晓峰,谢巍,张浪文. 控制理论与应用. 2020(09)
[2]基于python网络爬虫的浏览器伪装技术探讨[J]. 余本国. 太原学院学报(自然科学版). 2020(01)
[3]基于改进LeaderRank算法的高速铁路网络关键站点识别方法研究[J]. 陈锦渠,刘杰,殷勇,孙靖翔. 交通运输工程与信息学报. 2020(01)
[4]基于Hadoop的数据挖掘实践平台研究与应用[J]. 王辉,潘俊辉,王浩畅,张强. 赤峰学院学报(自然科学版). 2020(02)
[5]基于网络爬虫的网络平台用户数据获取与分析[J]. 李世杰,高雅蓉. 计算机与网络. 2020(01)
[6]分布式爬虫的研究与实现[J]. 马蕾,冯锡炜,窦予梓,高天铸,朱睿,吴衍兵. 计算机技术与发展. 2020(02)
[7]基于URL和PageRank的公安舆情关键人物评估[J]. 张俊豪,李杨. 铁道警察学院学报. 2019(05)
[8]基于反向PageRank的影响力最大化算法[J]. 张宪立,唐建新,曹来成. 计算机应用. 2020(01)
[9]基于Spark GraphX的异构网络社区检测[J]. 包文瑞. 信息技术. 2019(08)
[10]基于改进PageRank算法的作者影响力评价研究[J]. 臧思思,李秀霞,孔月. 情报理论与实践. 2019(11)
硕士论文
[1]一种分布式聚焦型爬虫系统的设计与实现[D]. 黄林波.华中科技大学 2016
[2]Louvain算法在社区挖掘中的研究与实现[D]. 李沐南.中国石油大学(北京) 2016
[3]基于Fish-search算法的垂直搜索引擎研究与设计[D]. 舒奔.安徽理工大学 2014
本文编号:3253027
【文章来源】:北京印刷学院北京市
【文章页数】:47 页
【学位级别】:硕士
【部分图文】:
HTML DOM Tree实例
无论在现实中还是在网络中,每个人都有自己的社交网络,因为每个人都会有家人、朋友或者熟人。而通过网络,这个社交网路的范围会被扩大,人们可以通过网络连接到许多更多不在我们社交范围内的人,在网络中人们可以结识更多与自己志趣相投的人或者一些有共同关注的人。因此在社交平台中,大多数用户会拥有比现实中更庞大的社交范围。由于社交范围的扩大,越来越多有相同爱好或属性的人自发的相互关注就逐渐的形成了社区。通俗的来讲,社区是网络中相似对象的集合,集合内部的用户节点距离较近、属性相似。如图2-2所示,图中的点代表不同的用户,点与点之间的连线则代表用户间的联系。由于现代生活的多面性,一个人可能会属于多个社区。甚至,社区会重合或者说嵌套。
GN算法示例图如图2-3所示[15]:假设存在一个有m条边和n个节点的社区网络,GN算法完成该社区计算的时间复杂度为。这使得GN算法在计算边介数时会耗费大量的时间,除此之外GN算法还存在不能判断停止位置的缺点。虽然GN算法有很多缺点,但该算法的思想为后面的研究者们提供了宝贵的思路。
【参考文献】:
期刊论文
[1]加权有向图社区发现的子系统划分[J]. 杨晓峰,谢巍,张浪文. 控制理论与应用. 2020(09)
[2]基于python网络爬虫的浏览器伪装技术探讨[J]. 余本国. 太原学院学报(自然科学版). 2020(01)
[3]基于改进LeaderRank算法的高速铁路网络关键站点识别方法研究[J]. 陈锦渠,刘杰,殷勇,孙靖翔. 交通运输工程与信息学报. 2020(01)
[4]基于Hadoop的数据挖掘实践平台研究与应用[J]. 王辉,潘俊辉,王浩畅,张强. 赤峰学院学报(自然科学版). 2020(02)
[5]基于网络爬虫的网络平台用户数据获取与分析[J]. 李世杰,高雅蓉. 计算机与网络. 2020(01)
[6]分布式爬虫的研究与实现[J]. 马蕾,冯锡炜,窦予梓,高天铸,朱睿,吴衍兵. 计算机技术与发展. 2020(02)
[7]基于URL和PageRank的公安舆情关键人物评估[J]. 张俊豪,李杨. 铁道警察学院学报. 2019(05)
[8]基于反向PageRank的影响力最大化算法[J]. 张宪立,唐建新,曹来成. 计算机应用. 2020(01)
[9]基于Spark GraphX的异构网络社区检测[J]. 包文瑞. 信息技术. 2019(08)
[10]基于改进PageRank算法的作者影响力评价研究[J]. 臧思思,李秀霞,孔月. 情报理论与实践. 2019(11)
硕士论文
[1]一种分布式聚焦型爬虫系统的设计与实现[D]. 黄林波.华中科技大学 2016
[2]Louvain算法在社区挖掘中的研究与实现[D]. 李沐南.中国石油大学(北京) 2016
[3]基于Fish-search算法的垂直搜索引擎研究与设计[D]. 舒奔.安徽理工大学 2014
本文编号:3253027
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3253027.html