面向社交网络数据的广度优先与深度优先抽样策略研究
发布时间:2021-08-24 08:51
现代社会信息技术的迅猛发展为一切信息数据化提供了基础,庞大的数据涵盖着生活中的方方面面。数据产生有许多种渠道,社交网络便是如今大数据的一个重要来源。同时,社交网络也早已成为一种全球性的交流模式,月活跃用户数多则十几亿,少则几亿。社交网络产生的数据具备“大数据”数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)以及速度快时效高(Velocity)的4V特性。除此之外,社交网络数据也具备着小世界,无标度以及社区结构性等复杂网络特性。如何能有效对如此数据进行分析,传统的抽样方式是否适用,能否获得较好的样本网络对原始网络进行较为准确的统计推断等等问题都亟待解决。本文正是在此背景下面向社交网络数据,通过广度优先抽样和深度优先抽样的两种抽样策略,获取数据,得到样本网络,并将两种抽样策略对原始网络的估计效果进行比较。一方面通过构建三种网络模型进行模拟实验,另一方面通过现实中豆瓣社交网络的实证数据实证分析。分别从度分布、平均度和聚类系数等社交网络统计特征量出发比较了两种抽样策略的效果。结合本文的模拟实验和实证分析,得出了以下结论:1.广度优先抽样和深度优先抽样具有较好的样本...
【文章来源】:山西财经大学山西省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
ER随机网络模型的度分布(N=10000,p=0.1)
者使用 Python3.0 绘制。图 2-6 WS 网络模型的度分布(N=10000,K=4,p=0.3模型模型和 ER 随机网络模型这两种模型而言,其度的而在研究不断深入的过程中,人们发现真实网络中万维网,电力网络以及代谢网络等的度分布可以用这种节点度没有明显特征长度,分布符合幂律分布性称为无标度特性。络模型的构造算法如下:给定节点数为 m0的连通网络,每次引入一个新节点点,要求 。:新引入的节点与已有节点 i 相连的概率 ( )与 i
由作者使用 Python3.0 绘制。图 2-7 BA 无标度网络(n=10,m=2) 无标度网络中度的分布理论研究较多,主要有:速程法三种方法。这三种方法得到的渐进结果相同,价,本文采用了主方程法,该网络的度分布函数如 ( ) )( ) ,幂指数为 3 的幂律函数能够近似描述 BA 网络的10000,初始给定节点为 3,新增一点后的连接点为况。
本文编号:3359680
【文章来源】:山西财经大学山西省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
ER随机网络模型的度分布(N=10000,p=0.1)
者使用 Python3.0 绘制。图 2-6 WS 网络模型的度分布(N=10000,K=4,p=0.3模型模型和 ER 随机网络模型这两种模型而言,其度的而在研究不断深入的过程中,人们发现真实网络中万维网,电力网络以及代谢网络等的度分布可以用这种节点度没有明显特征长度,分布符合幂律分布性称为无标度特性。络模型的构造算法如下:给定节点数为 m0的连通网络,每次引入一个新节点点,要求 。:新引入的节点与已有节点 i 相连的概率 ( )与 i
由作者使用 Python3.0 绘制。图 2-7 BA 无标度网络(n=10,m=2) 无标度网络中度的分布理论研究较多,主要有:速程法三种方法。这三种方法得到的渐进结果相同,价,本文采用了主方程法,该网络的度分布函数如 ( ) )( ) ,幂指数为 3 的幂律函数能够近似描述 BA 网络的10000,初始给定节点为 3,新增一点后的连接点为况。
本文编号:3359680
本文链接:https://www.wllwen.com/shekelunwen/shgj/3359680.html
教材专著