当前位置:主页 > 管理论文 > 移动网络论文 >

基于众包协作的分布式爬虫研究

发布时间:2018-09-07 20:38
【摘要】:在互联网技术迅速发展和人类社交需求日益增长的时代,分布式爬虫已被成熟的应用到各大搜索引擎和检索领域。本文提出众包协作模式的爬虫架构也是分布式系统,但任务分配方式采用“能者多劳”思想,可用资源越多的爬虫节点,获得更多任务,从而提高资源利用率、任务执行效率、节省执行时间和费用开销等。因此,研究基于众包协作模式的最优化任务分配方法有重要的学术意义和应用前景。本文将众包模式下的爬行任务分配问题分为静态爬行任务分配和动态爬行任务分配两大部分。静态爬行任务分配问题是指整个系统尚未执行任务,即任务序列没有被执行,爬虫节点也没有被分配任务;动态爬行任务分配问题是指整个系统在运行过程中,受外界环境和内部资源条件限制,各个任务和爬虫节点的状态动态变化。那么,在整体开销尽可能小时,如何考虑众包模式下爬虫任务的静态和动态分配问题,从而提高爬虫系统执行效率和资源利用率等,成为本文的主要研究内容。针对静态爬行任务分配问题,本文提出一种基于众包协作的静态爬行任务分配算法。该算法建立了多维度计算机资源模型,将爬虫节点自身资源进行有效量化,采用优先匹配启发式爬行任务分配算法进行任务分配,通过对费用目标函数的优化求解,使得整个静态爬行任务分配的费用最小。通过Matlab仿真验证,该算法能在满足系统需求的前提下,使得总费用最小。针对动态爬行任务分配问题,本文在静态爬行任务分配算法的基础上进行改进,提出基于时间模型的可信度定义,用来衡量每个爬虫节点的时效性,设计了融合可信度的多维度计算机资源模型,采用变异的优先匹配启发式爬行任务分配算法进行任务的动态分配,通过对具有多约束条件的费用目标函数进行优化求解,使得整个系统在动态变化的过程中,所用时间和费用都尽可能最小。通过Matlab仿真验证,与传统贪心算法相比,基于众包协作的静态爬行任务分配算法和动态爬行任务分配算法更符合使用规律,且总费用开销也更加合理,具有良好的可使用性。系统实验结果表明,众包协作模式的分布式爬行任务分配算法表现良好。
[Abstract]:With the rapid development of Internet technology and the increasing social needs of human beings, distributed crawlers have been applied to various search engines and retrieval fields. In this paper, the crawler architecture of crowdsourcing collaboration mode is also proposed as a distributed system. However, the idea of "the more skilled is employed" is adopted in the task allocation mode, and the more resources are available to the crawler nodes, the more tasks can be obtained, so as to improve the utilization of resources and the efficiency of task execution. Save execution time and expenses, etc. Therefore, it is of great academic significance and application prospect to study the optimal task allocation method based on crowdsourcing collaboration mode. In this paper, crawling task assignment in crowdsourcing mode is divided into static crawling task assignment and dynamic crawling task assignment. The static crawling task assignment problem refers to the whole system has not carried out the task, that is, the task sequence has not been executed, the crawler node has not been assigned the task, and the dynamic crawling task assignment problem refers to the whole system in the running process. Due to the external environment and internal resource constraints, the state of each task and crawler node changes dynamically. Therefore, how to consider the static and dynamic assignment of crawler tasks in crowdsourcing mode in order to improve the execution efficiency and resource utilization of crawler system becomes the main research content of this paper. A static crawling task assignment algorithm based on crowdsourcing collaboration is proposed for static crawling task assignment. The algorithm establishes a multi-dimensional computer resource model, quantifies the crawler node's own resources effectively, uses the priority matching heuristic crawling task assignment algorithm to allocate the task, and solves the cost objective function by optimization. The cost of the static crawling task is minimized. The results of Matlab simulation show that the algorithm can minimize the total cost on the premise of satisfying the system requirements. To solve the problem of dynamic crawling task assignment, this paper improves the static crawling task allocation algorithm, and proposes a time-model based credibility definition, which is used to measure the timeliness of each crawler node. A multi-dimensional computer resource model with fusion credibility is designed. The dynamic assignment of tasks is carried out by using the variant priority matching heuristic crawling task assignment algorithm. The cost objective function with multiple constraints is solved optimally. Make the whole system in the process of dynamic change, the minimum time and cost. Compared with the traditional greedy algorithm, the static crawling task assignment algorithm and the dynamic crawling task assignment algorithm based on crowdsourcing collaboration are verified by Matlab simulation. The experimental results show that the distributed crawling task allocation algorithm based on crowdsourcing collaboration mode performs well.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 聂明泓;杨丽英;聂义勇;;任务分配问题的建模与求解[J];小型微型计算机系统;2009年04期

2 张雷;王崇骏;谢俊元;;分布式任务分配中的一种信誉重连策略[J];广西大学学报(自然科学版);2009年05期

3 高志军,韦红雨,颜国正,丁国清;网络环境下多机器人的任务分配实现[J];计算机工程与应用;2004年03期

4 李济泽;李科杰;宋萍;;基于非合作博弈模型的多移动节点任务分配[J];福建工程学院学报;2010年04期

5 孟海战;;一种优化的任务分配方法研究[J];计算机与现代化;2011年04期

6 陶雪丽;郑延斌;;多Agent层次任务分配方法[J];计算机工程与设计;2013年05期

7 陶雪丽;郑延斌;;基于适应度的多Agent层次任务分配方法[J];微电子学与计算机;2013年06期

8 黎亮,杨国纬;一种具有自适应能力的任务分配系统的设计[J];电子科技大学学报;1998年06期

9 陈夏冰;刘国栋;刘丽娟;;基于分区的多机器人任务分配[J];江南大学学报(自然科学版);2013年04期

10 袁伟;;基于抛弃 捡拾法的多机器人动态任务分配[J];福建电脑;2010年01期

相关会议论文 前10条

1 赵保学;李战怀;陈群;姜涛;潘巍;金健;;可扩展Hadoop任务分配模块的研究与实现[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 冯利伟;;EPON接入的DBA算法研究[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第四卷)[C];2010年

3 陈超;蒋建春;丁治明;;基于时序片段评价的数据分配算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

4 周一青;王江舟;吴冬生;;OFCDM系统中的码分配算法的研究与应用[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年

5 郭淑明;唐晓梅;邬江兴;;一种OVSF码的改进型快速分配算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

6 何兴;范红;徐伟亮;季尹禹;;EPON上行接入带宽分配算法的研究[A];全国第十一次光纤通信暨第十二届集成光学学术会议(OFCIO’2003)论文集[C];2003年

7 石媛媛;周罗伟;王江柳;杨佩;陈春林;;适用于智能仓储多机器人任务分配的一种平衡启发式拍卖方法[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年

8 魏安贵;许宗泽;;一种基于线性规划无线网络最大最小公平性带宽分配算法[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年

9 钟耕深;朱雅杰;;基于众包的商业模式优化[A];第五届(2010)中国管理学年会——组织与战略分会场论文集[C];2010年

10 陈钦山;;VTS分布式系统的动态负载分配算法[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年

相关重要报纸文章 前10条

1 (美)杰夫·豪《连线》杂志著名资深编辑;众包——化整为零的革命[N];中国联合商报;2009年

2 君尚;中介和渠道全面让位众包服务平台[N];科技日报;2014年

3 凌曼文;众包:人人都来卖点子[N];中国计算机报;2006年

4 夏剑;众包革命:群众创新[N];中国企业报;2008年

5 本报记者 肖志飞;“众包”的魅力[N];医药经济报;2010年

6 张涵;建立有层级架构的“众包”模式[N];人民日报;2012年

7 羽哲;“春晚”可以尝试“众包”[N];科技日报;2013年

8 本报记者 王继征;众包模式能给纤维品牌带来什么?[N];中国纺织报;2014年

9 张凤岐;众包的价值[N];电脑商报;2009年

10 本报记者 张洁云;“众包”,多元化的解困路径?[N];医药经济报;2010年

相关博士学位论文 前10条

1 马巧云;基于多Agent系统的动态任务分配研究[D];华中科技大学;2006年

2 李勇;多Agent系统联盟及任务分配的研究[D];合肥工业大学;2008年

3 刘美;WSN多目标跟踪节点任务分配及跟踪算法研究[D];华南理工大学;2010年

4 梁晓雯;OFDM系统中自适应分配算法及其计算量的研究[D];中国科学技术大学;2006年

5 林素芬;基于众包参与者网络的众包绩效提升研究[D];华侨大学;2015年

6 庞建刚;众包社区创新的运营机制设计[D];中国科学技术大学;2014年

7 岳德君;众包质量评估与优化策略的研究[D];东北大学;2015年

8 向为;创意设计柔性众包的方法与应用[D];浙江大学;2017年

9 臧洁;分布式制造企业中协同生产任务分配的若干优化问题研究[D];东北大学;2011年

10 彭玲;众包平台用户接受与知识转移研究[D];华中科技大学;2012年

相关硕士学位论文 前10条

1 张宁;自治移动云中任务分配的设计与实现[D];内蒙古大学;2015年

2 张驰;无人机任务分配仿真平台设计与研究[D];西安电子科技大学;2014年

3 贾健;多平台防空协同任务分配问题研究[D];北京理工大学;2016年

4 程如洪;群智感知的任务分配和用户调度算法[D];中国科学技术大学;2016年

5 程静;具有随机属性的多无人机任务分配问题研究[D];合肥工业大学;2016年

6 李明;基于异构MAS的AGV协作系统任务分配方法研究[D];武汉工程大学;2016年

7 赵文卫;分布式爬虫系统中任务分配问题的研究[D];南京大学;2015年

8 陈永春;移动云计算的系统管理与优化方法研究[D];吉林大学;2017年

9 鲁昊;Multi-agent系统中动态任务分配研究[D];湖北大学;2012年

10 姚慧峰;移动云计算环境下任务分配问题的研究[D];南京邮电大学;2014年



本文编号:2229354

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2229354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99583***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com