当前位置:主页 > 科技论文 > 数学论文 >

大型在线社交网络的高效高代表性采样方法研究

发布时间:2024-03-24 11:12
  在线社交网络(Online Social Network,OSN)已成为有效连接人们和促进信息传播的重要平台,这对我们的社会生活和社会至关重要。但是由于隐私问题和访问限制,研究者很难获得整个社交网络的数据并对其进行分析,因此通过采样得到一个具有代表性的子图至关重要。但是由于同样的原因,我们缺乏原始网络作为参照,这对评估抽样方法的无偏性(尤其是代表性)提出了巨大挑战。因此,用户均匀采样方法(Uniform sampling of user IDs,UNI)[Gjoka et al.2010]被提出以获得原始网络的节点拓扑特性的无偏分布,从而用来评估其他采样方法的无偏性。然而,UNI采样效率低下,并且很少研究由采样节点及其之间的连接所形成的子图的代表性和连通性。故在本文中,本文提出了一种自适应UNI采样(adpUNI)方法,该方法通过将用户ID空间划分为多个均匀间隔并使得各区间采样概率根据其命中率自适应地变化来克服UNI采样效率低下的缺点。基于adpUNI方法,我们进一步将每次采样命中节点的邻居节点也添加到样本集中,这样可以进一步提高采样效率,并获得更具连通性和代表性的子图,我们将该方法称...

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

图2-1拒绝釆样方法说明??Fig.2-1?The?instruction?of?rejection?sampling??

图2-1拒绝釆样方法说明??Fig.2-1?The?instruction?of?rejection?sampling??

?北京化工大学硕士学位???ACCEPTATION??’?f?mm?y??0?[x;x+dx]?x??图2-1拒绝釆样方法说明??Fig.2-1?The?instruction?of?rejection?sampling??2.3.2?UNI采样过程及均匀性证明??UNI采样作为....


图3-3新浪微博用户ID在区间[0,5〇xl〇8)内的分布情况??Fig.3-3?The?distribution?of?valid?user?IDs?of?Sina?Weibo?

图3-3新浪微博用户ID在区间[0,5〇xl〇8)内的分布情况??Fig.3-3?The?distribution?of?valid?user?IDs?of?Sina?Weibo?

<?d^??1〇3?[:?|......I?T7?*?^??厂1??10?i^SpFr!?:?i?I?:??????????<?]???攀???^??????〇?^?‘???.???????-???*??10??-?*???*?????*??0?26?50?75?100?125?....


图5-1?UNI,MHRW和adpUNUdpUNI+N?(在不同的区间划分下)对TwitterUb)和新浪微博(c,d)??

图5-1?UNI,MHRW和adpUNUdpUNI+N?(在不同的区间划分下)对TwitterUb)和新浪微博(c,d)??

?第五章实验及结果分析???度差别不是很大,故不同区间数的划分对adpUNI在其上的采样效率的影响的差异不??会太大。从图5-1?(b)和(d)中可以看出adpUNI+N的采样效率对区间划分数I有??较好的鲁棒性。??值得注意的是在图5-1和表5-1中/’sampling?tim....


图5-4各釆样方法对新浪微博的釆样子网与原网的度分布(a)、k-core分布(b)??和聚类系数分布(c)??--

图5-4各釆样方法对新浪微博的釆样子网与原网的度分布(a)、k-core分布(b)??和聚类系数分布(c)??--

?第五章实验及结果分析???1〇01.0-?k?1.0???j??(a)?K?(b,?(c,??I?〇.〇.?/?—-?BFS??10°?l〇i?l〇2?i〇3?104?l〇〇?i〇i?102?〇?〇?0?2?0.4?0.6?0.8?1.0??degree?k-core?cc??....



本文编号:3937359

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/3937359.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户419bd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com