当前位置:主页 > 管理论文 > 移动网络论文 >

基于BV算法的Web Graph压缩问题的研究

发布时间:2018-04-29 18:02

  本文选题:网络图压缩 + 幂律分布 ; 参考:《西安电子科技大学》2014年硕士论文


【摘要】:互联网中的网页及其超链接可建模为一个庞大的有向图,称为Web Graph。Web Graph的分析研究可应用于网页排名、检测网络垃圾信息、发现社区和镜像站点等。然而,这项研究受阻于需要把巨大的图存储到外存上,从而影响有效地随机访问结点。因此,把Web Graph压缩存储到内存的研究具有十分重要的意义。 Web Graph具有本地性和相似性,且服从幂律分布。BV算法采用Zeta-k编码,是最有效的Web Graph压缩方案之一。基于BV算法,本文提出了两种改进的Web Graph压缩算法:近似最优引用序列的压缩算法和合并最优引用序列的压缩算法。二者均采用引用压缩,其关键是选取最优引用序列。不同的是,前者不再局限于滑动窗口内部,可以实现沿着结点的引用链回溯搜索近似全局的最优引用序列;后者则是通过合并固定数目的结点生成块结点,用来作为块内结点的最优引用序列。 本文选用五组测试数据分别对三种压缩算法进行测试。主要的测试内容包括两个基本点:存储每条链接所用的比特位和随机访问每个结点所用的时间。最后,通过比较和分析三种算法的实验结果,,表明改进后的方法提高了压缩效果,而且缩短了结点引用链的长度,提高了随机访问结点的效率。
[Abstract]:The web pages and their hyperlinks in the Internet can be modeled as a huge directed graph. The analysis and research called Web Graph.Web Graph can be applied to the ranking of web pages, the detection of web spam, the discovery of community and mirror sites, and so on. However, this study is hampered by the need to store large graphs on external memory, thus affecting efficient random access nodes. Therefore, it is of great significance to compress Web Graph into memory. Web Graph is one of the most effective Web Graph compression schemes, because it is local and similar, and Zeta-k coding is used in the following power law distribution. BV algorithm. Based on BV algorithm, this paper proposes two improved Web Graph compression algorithms: approximate optimal reference sequence compression algorithm and merging optimal reference sequence compression algorithm. Both of them adopt reference compression, and the key is to select the optimal reference sequence. The difference is that the former is no longer confined to the sliding window and can be traced back along the node's reference chain to search the approximate global optimal reference sequence, while the latter is to generate block nodes by merging a fixed number of nodes. Used as an optimal sequence of references within a block. In this paper, five groups of test data are selected to test the three compression algorithms. The main tests include two basic points: the bits used to store each link and the time taken to randomly access each node. Finally, by comparing and analyzing the experimental results of the three algorithms, it is shown that the improved method improves the compression effect, shortens the length of the node reference chain, and improves the efficiency of random access nodes.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092

【共引文献】

相关期刊论文 前10条

1 李永成;黄曙光;杨斌;郭浩;;新浪微博名人堂用户关系网络分析[J];江西师范大学学报(自然科学版);2013年04期

2 王春娟;林振权;;人类通信行为中的标度律[J];复杂系统与复杂性科学;2013年03期

3 叶强;孙忠林;魏永山;;一种基于Hadoop的大规模图直径算法[J];电脑开发与应用;2013年12期

4 张毅;曹晶晶;齐莉娜;吴必虎;;旅游目的地虚拟网络结构特征研究——以黄山市为例[J];北京大学学报(自然科学版);2013年06期

5 熊金石;李建华;沈迪;郭威武;;节点崩溃条件下信息系统安全风险传播[J];电光与控制;2014年01期

6 吴振宇;胡军;李德毅;;社会标注系统幂律特性分析[J];复杂系统与复杂性科学;2014年02期

7 赵法栋;庄弘炜;金振兴;;基于MLE的恐怖组织袭击行为模式实证研究[J];复杂系统与复杂性科学;2014年04期

8 高言;李昭辉;;基于人工股票市场的财富分布及演化研究[J];复杂系统与复杂性科学;2015年01期

9 朱小栋;高春昌;王恒山;;引入资源即服务的云计算架构及其应用[J];上海理工大学学报;2013年03期

10 陈震;陆松;李国辉;张和平;;安徽省火灾经济损失的尾部分布研究[J];火灾科学;2013年03期

相关会议论文 前1条

1 李杰;张皎娟;;C2C电子商务顾客重复购买幂分布规律及其影响因素[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年

相关博士学位论文 前10条

1 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年

2 高雅纯;基于复杂系统理论的金融市场动力学研究[D];中国科学技术大学;2013年

3 吴联仁;基于人类动力学的社交网络信息传播实证分析与建模研究[D];北京邮电大学;2013年

4 刘瑶;社会网络特征分析与社团结构挖掘[D];电子科技大学;2013年

5 傅云斌;广义生灭过程与随机分枝树演化[D];上海大学;2013年

6 李朋;异构信息网络分析模型及其应用研究[D];重庆大学;2013年

7 程辉;网络用户偏好分析及话题趋势预测方法研究[D];北京交通大学;2013年

8 赵丙军;国外力量训练研究知识网络的结构及演化特征[D];上海体育学院;2013年

9 杨婧;大型工程项目网络化建模及关键节点分析方法研究[D];国防科学技术大学;2012年

10 傅晨波;复杂网络同步若干问题研究[D];浙江大学;2013年

相关硕士学位论文 前10条

1 杨俊;粒子群算法在发酵补料控制中的应用和研究[D];大连理工大学;2013年

2 耿玉娇;MapReduce中基于抽样技术的倾斜问题研究[D];大连海事大学;2013年

3 章琴;基于BA的混合演化模型研究[D];西南大学;2013年

4 杨yN;Wiki知识网络的网络特性与演化模型研究[D];浙江理工大学;2013年

5 王越;微博用户群体结构挖掘算法分析研究[D];北京交通大学;2013年

6 陆蕊;网络相位聚类模型及应用[D];西安电子科技大学;2013年

7 周杰;考虑选择性网络攻击的电网脆弱性分析[D];长沙理工大学;2013年

8 李彬;复杂网络抗毁度和节点重要性评价方法[D];西安电子科技大学;2013年

9 梁沙沙;基于单亲遗传算法的复杂网络重叠社区结构发现研究[D];内蒙古大学;2013年

10 肖平;广东省高速公路网结构复杂性分析[D];华南理工大学;2013年



本文编号:1820991

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1820991.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46f44***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com