当前位置:主页 > 管理论文 > 移动网络论文 >

Hadoop下改进布隆过滤器算法的网页去重

发布时间:2018-05-28 11:02

  本文选题:Hadoop + 布隆过滤器 ; 参考:《计算机工程与科学》2017年02期


【摘要】:针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在Hadoop分布式集群下对改进的算法进行并行实现,以进一步提高作业处理效率。实验结果表明,与传统网页去重算法相比,改进的Bloom Filter算法的并行实现不仅提高了作业的处理效率,而且通过基于位数组下动态重复次数对副本数的优化,在一定程度上节省了服务器的存储空间。
[Abstract]:For space waste caused by large amounts of duplicate and similar data stored in the server, The improved Bloom filter algorithm dynamically optimizes the replica number of repeated data by increasing the bit array and according to the weight calculated by the repeated hits of the bit array, and then implements the improved algorithm in parallel under the Hadoop distributed cluster. To further improve job processing efficiency. The experimental results show that the parallel implementation of the improved Bloom Filter algorithm not only improves the processing efficiency of the job, but also optimizes the number of replicas based on the bit array. To some extent, the storage space of the server is saved.
【作者单位】: 河北工程大学信息与电气工程学院;
【基金】:河北省自然科学基金(F2015402077) 河北省重点基础研究项目(14964206D)
【分类号】:TP393.092;TP301.6

【参考文献】

相关期刊论文 前10条

1 王勇;刘美林;李凯;任兴田;许荣强;;云环境下基于可靠性的均衡任务调度算法研究[J];计算机科学;2015年S1期

2 于娟;刘强;;主题网络爬虫研究综述[J];计算机工程与科学;2015年02期

3 栾霞;赵晓楠;;基于维基百科和网页相似度分析的主题爬行策略[J];现代电子技术;2014年20期

4 王艳红;周军;;基于Hadoop的网络爬虫技术研究[J];吉林工程技术师范学院学报;2014年08期

5 闫建红;;PageRank算法的并行实现[J];太原师范学院学报(自然科学版);2014年02期

6 黄婕;;基于Hadoop平台的HITS算法[J];计算机系统应用;2014年03期

7 胡丹;于炯;英昌甜;邹伟明;;Hadoop平台下改进的LATE调度算法[J];计算机工程与应用;2014年04期

8 钱孟远;虞慧群;;基于副本分布策略的MapReduce性能优化技术[J];华东理工大学学报(自然科学版);2013年06期

9 熊忠阳;牙漫;张玉芳;;基于网页正文结构和特征串的相似网页去重算法[J];计算机应用;2013年02期

10 祝家钰;肖丹;;云计算架构下的动态副本管理策略[J];计算机工程与设计;2012年09期

【共引文献】

相关期刊论文 前10条

1 岳希;安义文;;大学生创业环境因素分析软件平台的设计研究[J];科技展望;2017年19期

2 郑正;赵飞;周昕e,

本文编号:1946457


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1946457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1a4ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com