微博网络中基于时间和代价的竞争种集选取研究
发布时间:2020-03-18 16:39
【摘要】:随着互联网模式的不断创新,线上线下服务的融合加速以及移动互联网服务场景不断丰富,移动互联网产品成为人们获取信息的主要途径。微博由于其信息更新速度快、信息来源多样,事件和话题的发展脉络清晰等特点,受到了广大用户的欢迎,也成为近几年众多学者的研究热点。其中微博网络中的影响力传播问题是近几年学者们的研究热点,在影响最大化问题中寻找种子节点集合是其中一个重要的分支,其在信息传播和病毒营销方面都有着广泛的应用。本文针对两种竞争信息在微博网络中的传播,从时间和代价两个方面综合考虑,提出了一种基于时间和最小代价的竞争种集选取算法。该算法为后进入网络的信息B选取付出最小代价的竞争种集,使得信息最终的传播影响范围超过竞争信息的影响范围,即获取竞争胜利。该算法分为两个部分:信息A单独传播部分、信息A和信息B同时传播部分。信息A单独传播部分,单个信息利用独立级联模型进行传播,本文根据信息B进入微博网络中的时间,计算该时间内信息A独自传播的影响力;两种竞争信息同时传播部分,信息B进入微博网络后,两种竞争信息同时传播,本文根据时间和最小代价的竞争种集选取算法计算花费最小代价的信息B的初始节点,使得信息B的影响范围大于信息A的影响范围。为了证明该算法的可行性和正确性,本文采用真实的微博数据对算法进行实证。首先实验对算法本身进行分析,发现后者信息在不同时间进入网络所需的代价不同,选取的竞争种集也不同。并且若进入时间超过一定的范围,后者信息将不能取得竞争胜利。然后将CELF算法和基于最小代价的CELF算法进行对比,发现基于最小代价的CELF算法得出的竞争种集所需要的总代价更小。本文的创新点主要有两点:第一,本文在两种竞争信息同时传播的基础上进行改进,考虑两种竞争信息进入网络的时间差,选取花费最小代价的竞争种集,使得后者信息获得竞争胜利。第二,为了方便计算前者信息在微博网络中单独传播的影响范围,本文选用基于扩展独立级联模型的CELF算法,先选取可能图再计算影响范围。本文也存在一些不足。为了保证实验效果,本文选取了 CELF算法作为基础算法,但是最终结果显示,该算法的时间复杂度较高,本文下一步的研究需要改进竞争种集选取算法,减少时间复杂度,使其更加适合运用在大型的社交网络中。
【图文】:
微博网络中基于时间和代价的竞争种集选取研宄逡逑据。利用python语言编写爬虫程序,爬虫程序的整体框架和主程序如下图4-1逡逑和图4-2所示。通过模拟用户登录新浪微博,从种子用户开始抓取用户网页内容逡逑并进行解析,获取用户的基本信息(get_USer_info)。然后获取该用户的粉丝列表逡逑和关注列表(icLgenemtor),放入待爬队列。之后按照顺序爬取待爬队列中的粉逡逑丝(关注)用户的基本信息,再把他们的粉丝(关注)用户放入待爬队列。一直逡逑循环爬取,直到爬取到指定深度停止。逡逑-■si逡逑图4-3爬虫主程序逡逑通过这种爬虫方法,本文获取了一万多条用户信息,以及对应的关注信息。逡逑最终将爬虫数据存储在mysql数据库里面。主要包含下面三个表:用户信息表,逡逑粉丝关系表
(1)对上面数据预处理得到的用户之间的交互关系数据进行处理。计算个用户的出度数(用户的粉丝数)。得到一张包含用户编号USER_ID和用丝数FLLOWER_NUM的表。逡逑(2)针对步骤(1)得到的表,将重复的用户出度进行合并,计算每个出的用户数,得到一张包含用户出度数(用户粉丝数)FLLOWER_NUM和用USER_NUM的表。逡逑(3)分别对用户出度数(用户粉丝数)和用户个数取对数,并利用pytho码,得到用户出度和用户数的关系图,如下图4-5所示。逡逑图4-5描述的是1607个微博用户和52872条用户之间的边构成的微博网,用户的粉丝数和用户人数之间的双对数分布图。其中图中的横坐标表示用度数The邋number邋of邋out-degree,纵坐标表不用户人数The邋number邋of邋users。统计的微博用户数较少,,加上微博的反爬虫策略,所画出的图存在一定的误差了图中前面几个点零星的分布误差,图中大部分点所构成的图形还是近似一线。这说明本文爬取的微博网络还是能较为真实的反映微博社交网络的情况章后续的实验均以该实验网络作为基本的实验数据集。逡逑-
【学位授予单位】:中南财经政法大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F274;G206
【图文】:
微博网络中基于时间和代价的竞争种集选取研宄逡逑据。利用python语言编写爬虫程序,爬虫程序的整体框架和主程序如下图4-1逡逑和图4-2所示。通过模拟用户登录新浪微博,从种子用户开始抓取用户网页内容逡逑并进行解析,获取用户的基本信息(get_USer_info)。然后获取该用户的粉丝列表逡逑和关注列表(icLgenemtor),放入待爬队列。之后按照顺序爬取待爬队列中的粉逡逑丝(关注)用户的基本信息,再把他们的粉丝(关注)用户放入待爬队列。一直逡逑循环爬取,直到爬取到指定深度停止。逡逑-■si逡逑图4-3爬虫主程序逡逑通过这种爬虫方法,本文获取了一万多条用户信息,以及对应的关注信息。逡逑最终将爬虫数据存储在mysql数据库里面。主要包含下面三个表:用户信息表,逡逑粉丝关系表
(1)对上面数据预处理得到的用户之间的交互关系数据进行处理。计算个用户的出度数(用户的粉丝数)。得到一张包含用户编号USER_ID和用丝数FLLOWER_NUM的表。逡逑(2)针对步骤(1)得到的表,将重复的用户出度进行合并,计算每个出的用户数,得到一张包含用户出度数(用户粉丝数)FLLOWER_NUM和用USER_NUM的表。逡逑(3)分别对用户出度数(用户粉丝数)和用户个数取对数,并利用pytho码,得到用户出度和用户数的关系图,如下图4-5所示。逡逑图4-5描述的是1607个微博用户和52872条用户之间的边构成的微博网,用户的粉丝数和用户人数之间的双对数分布图。其中图中的横坐标表示用度数The邋number邋of邋out-degree,纵坐标表不用户人数The邋number邋of邋users。统计的微博用户数较少,,加上微博的反爬虫策略,所画出的图存在一定的误差了图中前面几个点零星的分布误差,图中大部分点所构成的图形还是近似一线。这说明本文爬取的微博网络还是能较为真实的反映微博社交网络的情况章后续的实验均以该实验网络作为基本的实验数据集。逡逑-
【学位授予单位】:中南财经政法大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F274;G206
【参考文献】
相关期刊论文 前7条
1 郭景峰;吕加国;;基于信息偏好的影响最大化算法研究[J];计算机研究与发展;2015年02期
2 郭静;张鹏;方滨兴;周川;曹亚男;郭莉;;基于LT模型的个性化关键传播用户挖掘[J];计算机学报;2014年04期
3 郭进时;汤红波;吴凯;杨森;;基于社区结构的影响力最大化算法[J];计算机应用;2013年09期
4 张振华;刘瑞芳;;微博社交网络中面向机构的用户挖掘[J];软件;2013年01期
5 陈浩;王轶彤;;基于阈值的社交网络影响力最大化算法[J];计算机研究与发展;2012年10期
6 田家堂;王轶彤;冯小军;;一种新型的社会网络影响最大化算法[J];计算机学报;2011年10期
7 冀进朝;韩笑;王U
本文编号:2588930
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2588930.html