当前位置:主页 > 管理论文 > 移动网络论文 >

基于优先级队列的分布式多主题爬虫

发布时间:2018-02-22 11:21

  本文关键词: 哈希算法 优先级队列 均衡 多主题 任务调度 出处:《计算机工程与设计》2015年06期  论文类型:期刊论文


【摘要】:在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ-MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。
[Abstract]:In distributed environment, in order to improve resource utilization and web crawling efficiency, a distributed multi-topic crawler scheduling algorithm PQ-MCSAbased on priority queue is proposed. The whole task set is cut by cache based extended hash algorithm. According to the URL logic two-level node hash mapping method, the partitioned sub-task set is uniformly assigned to each processing node. By using the computing power of single processing node and the constructed priority queue of tasks, the algorithm can solve the problem that the traditional distributed crawler can not schedule the processing resources of single node sufficiently. The application results of practical projects show that the proposed method can effectively improve the equalization degree of crawling results of various topics and has a strong practicability.
【作者单位】: 武汉大学计算机学院;
【基金】:国家自然科学基金项目(61272109)
【分类号】:TP393.092;TP391.1

【参考文献】

相关期刊论文 前7条

1 柳少锋;董剑;吴智博;;一种基于优先级队列的集群动态反馈调度算法[J];智能计算机与应用;2012年04期

2 孟祥乾;叶允明;邓斌;;基于流水线负载平衡模型的并行爬虫研究[J];计算机工程;2009年02期

3 梁根;秦勇;郭小雪;梁活民;;基于动态多处理节点的分布式系统任务调度[J];计算机工程;2009年09期

4 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期

5 王春娟;董丽丽;贾丽;;Web集群系统的负载均衡算法[J];计算机工程;2010年02期

6 刘爽;姜春祥;张伟哲;李东;张鸿;;基于GNP算法的分布式爬虫调度策略[J];计算机应用研究;2010年02期

7 金凡;顾进广;;一种改进的T-Spider分布式爬虫[J];微电子学与计算机;2011年08期

相关博士学位论文 前1条

1 耿晓中;基于多核分布式环境下的任务调度关键技术研究[D];吉林大学;2013年

【共引文献】

相关期刊论文 前10条

1 董立岩;黄乐;王利民;毛锐;殷涵;;改进的分布式系统负载平衡策略[J];北京工业大学学报;2011年12期

2 金杉;任波;;基于进程调度的ERP系统负载均衡算法[J];电力信息化;2010年07期

3 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期

4 高垣;吴昊;杨建锋;朱海洋;张进;;基于负反馈的WEB集群负载均衡算法[J];电子制作;2012年10期

5 陈泰安;;一种改进的动态反馈负载均衡算法[J];电子设计工程;2013年05期

6 聂得欣;;基于高可用性、负载均衡和共享存储的三层WEB服务器集群设计[J];河南财政税务高等专科学校学报;2013年01期

7 李卓;何嘉;;基于无差别虚拟机的负载均衡调度算法研究[J];成都信息工程学院学报;2014年S1期

8 刘林东;刘波;;一种多核处理器调度策略研究[J];广东第二师范学院学报;2014年05期

9 陈静;王鲁;孙萌;;支持测试节点按需调整的分布式测试调度模型[J];计算机工程与应用;2012年06期

10 裴艳霞;刘椿年;;面向手机3D动画自动生成的中文命名实体识别[J];计算机工程与应用;2012年13期

相关会议论文 前1条

1 金杉;任波;;基于进程调度的ERP系统负载均衡算法[A];2010电力行业信息化年会优秀论文专辑[C];2010年

相关博士学位论文 前1条

1 孙妮;B2C购物网站商品评价的效应研究[D];对外经济贸易大学;2014年

相关硕士学位论文 前10条

1 吕信;激光能量沉积光路追踪法及其并行化[D];中国工程物理研究院;2009年

2 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年

3 苏洪堂;招标智能办公系统的研究与应用[D];太原科技大学;2011年

4 李锐鑫;Web视频资源的智能发现关键技术研究[D];哈尔滨工业大学;2010年

5 王燕茹;在线家居设计平台中渲染模块的设计与实现[D];哈尔滨工业大学;2011年

6 胡亚楠;社交网络数据获取技术与实现[D];哈尔滨工业大学;2011年

7 吴昊;主题爬虫URL分析模型与调度技术研究[D];哈尔滨工程大学;2011年

8 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年

9 郝阳;高校教务管理网上选课系统优化研究[D];山东科技大学;2011年

10 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期

2 何琨;赵勇;;网格环境下资源调度问题的统一建模与分析[J];华中科技大学学报(自然科学版);2006年03期

3 王 X,乔 颖,王宏安,方 亭,邹 冰,戴国忠;实时异构系统的动态调度算法研究[J];计算机研究与发展;2002年06期

4 李庆华,韩建军,Abbas A.Essa;同构计算环境中一种快速有效的静态任务调度算法[J];计算机研究与发展;2005年01期

5 李冬梅;施海虎;;负载平衡调度问题的一般模型研究[J];计算机工程与应用;2007年08期

6 蒋建春;汪同庆;;异构多核处理器的任务调度算法[J];计算机工程与应用;2009年33期

7 向建军,白欣,左继章;一种用于实时集群的多任务负载均衡算法[J];计算机工程;2003年12期

8 周集良,彭小宁,王正华;基于集群的负载平衡调度算法研究与实现[J];计算机工程;2005年12期

9 王晋鹏,潘龙法,李降龙;LVS集群中的动态反馈调度算法[J];计算机工程;2005年19期

10 钱榕;徐新华;郑莹;杨炳儒;;智能专题化信息搜集Crawler[J];计算机工程;2006年03期

相关会议论文 前1条

1 柯怡;林宇;金跃辉;程时端;;GNP算法与基于GNP的全局负载均衡技术[A];第九届全国青年通信学术会议论文集[C];2004年

相关博士学位论文 前4条

1 黄立波;片上集群体系结构关键技术研究[D];国防科学技术大学;2010年

2 顾雄礼;片上多处理器关键技术研究[D];浙江大学;2011年

3 吴佳骏;多核多线程处理器上任务调度技术研究[D];中国科学院研究生院(计算技术研究所);2006年

4 章军;分布式内存多处理机上并行任务静态调度[D];中国科学院研究生院(计算技术研究所);1999年

相关硕士学位论文 前7条

1 赵磊;适应多核处理器的任务调度研究[D];哈尔滨理工大学;2010年

2 牛雪征;分布式计算机系统动态负载平衡的研究[D];南京航空航天大学;2003年

3 叶敏娇;Manticore体系结构设计[D];浙江大学;2006年

4 王群霞;基于集群的不确定因素下的动态负载平衡[D];浙江师范大学;2007年

5 袁云;基于多核处理器并行系统的任务调度算法研究[D];华东师范大学;2009年

6 覃中;基于多核系统的线程调度[D];电子科技大学;2009年

7 王历;基于树形网络的云计算环境下的任务调度策略[D];吉林大学;2012年

【相似文献】

相关期刊论文 前1条

1 陈宏;陈伟;;基于多主题追踪的网络新闻推荐[J];计算机应用;2011年09期



本文编号:1524280

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1524280.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5ba4e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com