社交网络存储系统中数据划分与复制技术的研究
发布时间:2021-01-31 13:37
近些年来,在线社交网络日趋流行,吸引了成千上万用户的亲睐。海量用户的加入,促使社交网络爆炸性增长,产生海量的数据,对后端支撑系统的可扩展性提出了极高的要求。面对这一挑战,如何管理用户数据已经成为亟需解决的难题。而社交网络中用户数据自身的复杂性,又加大了数据划分与复制的难度。我们在分析了社交网络中的真实数据集之后,发现:用户在社交网络中的大部分的交互活动,是与他们小部分的好友完成的;用户的好友数目越多,用户数据被访问的概率也越大。受上述的观察结果启发,我们先构建了一个动态带权社交关系图:在这个图中,我们区分用户与不同好友之间的交互活动的重要程度。然后我们设计了一个名为WEPAR的动态划分与复制算法,这个算法中我们综合考虑了社交网络中的读操作、写操作以及副本拷贝代价。基于真实数据集的深刻并全面的实验结果表明与现有方法相比,我们的方法能够切实的降低存储代价,在维持读操作的响应时间的同时,能够改善写操作的响应时间。同时我们的方案具备优良的稳定性和可扩展性。我们的主要贡献包括如下方面:我们引入了动态带权社交关系图的概念,来区分社交网络中用户与不同好友之间的交互活动的重要程度。在这个图中,所有的点...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
表格索引
插图索引
主要符号对照表
第一章 绪论
1.1 社交网络的兴起
1.1.1 爆炸性增长
1.1.2 社交网络的特点
1.2 支撑系统的扩展
1.3 社交网络中遇到的挑战
1.4 基于哈希的水平划分方案
1.5 已有的基于社交关系的划分与复制方案
1.6 我们的数据划分与复制方案——WEPAR
1.7 论文组织结构
1.8 本章总结
第二章 相关工作
2.1 社交网络中用户行为分析
2.1.1 社交关系 vs 交互关系
2.1.2 交互行为的演进
2.1.3 显示行为 vs 隐式行为
2.2 划分与复制方案的研究
2.2.1 基于社交关系的划分与复制方案——SPAR
2.2.2 基于时间维度的划分与复制方案
第三章 社交网络数据分析
3.1 用户好友分布情况
3.2 用户活跃度分布情况
3.3 用户交互活动情况
3.4 社交关系图 vs 交互关系图
3.5 本章小结
第四章 动态带权社交关系图模型
4.1 简单约定
4.2 活动权重
4.3 带权社交关系图
4.4 动态带权社交关系图
第五章 划分与复制问题
5.1 问题关注点
5.1.1 关注点一:不同服务器的用户之间的交互最小
5.1.2 关注点二:负载均衡
5.1.3 关注点三:维持一定的冗余
5.1.4 关注点四:有效并可靠地支持在线操作
5.2 基本概念
5.2.1 双向区间权重(PBW)
5.2.2 区间权重(PW)
5.3 问题定义
5.4 现存方案的缺陷
5.4.1 图划分方案
5.4.2 社团检测方案
第六章 WEPAR 算法描述
6.1 新用户/节点加入
6.2 已有用户/节点注销
6.3 边权重 Ws(u, v)增加
6.3.1 方案一:不移动节点 u 与节点 v
6.3.2 方案二:将节点 u 的主本拷贝移至节点 v 所在的服务器
6.3.3 方案三:将节点 v 的主本拷贝移至节点 u 所在的服务器
6.3.4 方案选取
6.3.5 实例分析
6.4 边权重 Ws(u, v)减小
6.5 增加一台服务器
6.6 减少一台服务器
6.7 副本拷贝回收
第七章 实验结果与分析
7.1 评价方法
7.1.1 评价标准
7.1.2 数据集
7.1.3 对比方案
7.2 副本拷贝代价测评
7.3 读响应时间测评
7.4 写响应时间测评
7.5 稳定性测评
7.6 本地读比例与副本拷贝代价权衡
7.7 副本拷贝分布测评
7.8 交互因子测评
7.9 可扩展性测评
7.9.1 向上扩展
7.9.2 向下扩展
7.10 本章小结
第八章 总结
参考文献
致谢
攻读学位期间发表的学术论文目录
本文编号:3010971
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
表格索引
插图索引
主要符号对照表
第一章 绪论
1.1 社交网络的兴起
1.1.1 爆炸性增长
1.1.2 社交网络的特点
1.2 支撑系统的扩展
1.3 社交网络中遇到的挑战
1.4 基于哈希的水平划分方案
1.5 已有的基于社交关系的划分与复制方案
1.6 我们的数据划分与复制方案——WEPAR
1.7 论文组织结构
1.8 本章总结
第二章 相关工作
2.1 社交网络中用户行为分析
2.1.1 社交关系 vs 交互关系
2.1.2 交互行为的演进
2.1.3 显示行为 vs 隐式行为
2.2 划分与复制方案的研究
2.2.1 基于社交关系的划分与复制方案——SPAR
2.2.2 基于时间维度的划分与复制方案
第三章 社交网络数据分析
3.1 用户好友分布情况
3.2 用户活跃度分布情况
3.3 用户交互活动情况
3.4 社交关系图 vs 交互关系图
3.5 本章小结
第四章 动态带权社交关系图模型
4.1 简单约定
4.2 活动权重
4.3 带权社交关系图
4.4 动态带权社交关系图
第五章 划分与复制问题
5.1 问题关注点
5.1.1 关注点一:不同服务器的用户之间的交互最小
5.1.2 关注点二:负载均衡
5.1.3 关注点三:维持一定的冗余
5.1.4 关注点四:有效并可靠地支持在线操作
5.2 基本概念
5.2.1 双向区间权重(PBW)
5.2.2 区间权重(PW)
5.3 问题定义
5.4 现存方案的缺陷
5.4.1 图划分方案
5.4.2 社团检测方案
第六章 WEPAR 算法描述
6.1 新用户/节点加入
6.2 已有用户/节点注销
6.3 边权重 Ws(u, v)增加
6.3.1 方案一:不移动节点 u 与节点 v
6.3.2 方案二:将节点 u 的主本拷贝移至节点 v 所在的服务器
6.3.3 方案三:将节点 v 的主本拷贝移至节点 u 所在的服务器
6.3.4 方案选取
6.3.5 实例分析
6.4 边权重 Ws(u, v)减小
6.5 增加一台服务器
6.6 减少一台服务器
6.7 副本拷贝回收
第七章 实验结果与分析
7.1 评价方法
7.1.1 评价标准
7.1.2 数据集
7.1.3 对比方案
7.2 副本拷贝代价测评
7.3 读响应时间测评
7.4 写响应时间测评
7.5 稳定性测评
7.6 本地读比例与副本拷贝代价权衡
7.7 副本拷贝分布测评
7.8 交互因子测评
7.9 可扩展性测评
7.9.1 向上扩展
7.9.2 向下扩展
7.10 本章小结
第八章 总结
参考文献
致谢
攻读学位期间发表的学术论文目录
本文编号:3010971
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3010971.html