基于众包协作的分布式爬虫研究
[Abstract]:With the rapid development of Internet technology and the increasing social needs of human beings, distributed crawlers have been applied to various search engines and retrieval fields. In this paper, the crawler architecture of crowdsourcing collaboration mode is also proposed as a distributed system. However, the idea of "the more skilled is employed" is adopted in the task allocation mode, and the more resources are available to the crawler nodes, the more tasks can be obtained, so as to improve the utilization of resources and the efficiency of task execution. Save execution time and expenses, etc. Therefore, it is of great academic significance and application prospect to study the optimal task allocation method based on crowdsourcing collaboration mode. In this paper, crawling task assignment in crowdsourcing mode is divided into static crawling task assignment and dynamic crawling task assignment. The static crawling task assignment problem refers to the whole system has not carried out the task, that is, the task sequence has not been executed, the crawler node has not been assigned the task, and the dynamic crawling task assignment problem refers to the whole system in the running process. Due to the external environment and internal resource constraints, the state of each task and crawler node changes dynamically. Therefore, how to consider the static and dynamic assignment of crawler tasks in crowdsourcing mode in order to improve the execution efficiency and resource utilization of crawler system becomes the main research content of this paper. A static crawling task assignment algorithm based on crowdsourcing collaboration is proposed for static crawling task assignment. The algorithm establishes a multi-dimensional computer resource model, quantifies the crawler node's own resources effectively, uses the priority matching heuristic crawling task assignment algorithm to allocate the task, and solves the cost objective function by optimization. The cost of the static crawling task is minimized. The results of Matlab simulation show that the algorithm can minimize the total cost on the premise of satisfying the system requirements. To solve the problem of dynamic crawling task assignment, this paper improves the static crawling task allocation algorithm, and proposes a time-model based credibility definition, which is used to measure the timeliness of each crawler node. A multi-dimensional computer resource model with fusion credibility is designed. The dynamic assignment of tasks is carried out by using the variant priority matching heuristic crawling task assignment algorithm. The cost objective function with multiple constraints is solved optimally. Make the whole system in the process of dynamic change, the minimum time and cost. Compared with the traditional greedy algorithm, the static crawling task assignment algorithm and the dynamic crawling task assignment algorithm based on crowdsourcing collaboration are verified by Matlab simulation. The experimental results show that the distributed crawling task allocation algorithm based on crowdsourcing collaboration mode performs well.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 聂明泓;杨丽英;聂义勇;;任务分配问题的建模与求解[J];小型微型计算机系统;2009年04期
2 张雷;王崇骏;谢俊元;;分布式任务分配中的一种信誉重连策略[J];广西大学学报(自然科学版);2009年05期
3 高志军,韦红雨,颜国正,丁国清;网络环境下多机器人的任务分配实现[J];计算机工程与应用;2004年03期
4 李济泽;李科杰;宋萍;;基于非合作博弈模型的多移动节点任务分配[J];福建工程学院学报;2010年04期
5 孟海战;;一种优化的任务分配方法研究[J];计算机与现代化;2011年04期
6 陶雪丽;郑延斌;;多Agent层次任务分配方法[J];计算机工程与设计;2013年05期
7 陶雪丽;郑延斌;;基于适应度的多Agent层次任务分配方法[J];微电子学与计算机;2013年06期
8 黎亮,杨国纬;一种具有自适应能力的任务分配系统的设计[J];电子科技大学学报;1998年06期
9 陈夏冰;刘国栋;刘丽娟;;基于分区的多机器人任务分配[J];江南大学学报(自然科学版);2013年04期
10 袁伟;;基于抛弃 捡拾法的多机器人动态任务分配[J];福建电脑;2010年01期
相关会议论文 前10条
1 赵保学;李战怀;陈群;姜涛;潘巍;金健;;可扩展Hadoop任务分配模块的研究与实现[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 冯利伟;;EPON接入的DBA算法研究[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第四卷)[C];2010年
3 陈超;蒋建春;丁治明;;基于时序片段评价的数据分配算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
4 周一青;王江舟;吴冬生;;OFCDM系统中的码分配算法的研究与应用[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
5 郭淑明;唐晓梅;邬江兴;;一种OVSF码的改进型快速分配算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
6 何兴;范红;徐伟亮;季尹禹;;EPON上行接入带宽分配算法的研究[A];全国第十一次光纤通信暨第十二届集成光学学术会议(OFCIO’2003)论文集[C];2003年
7 石媛媛;周罗伟;王江柳;杨佩;陈春林;;适用于智能仓储多机器人任务分配的一种平衡启发式拍卖方法[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
8 魏安贵;许宗泽;;一种基于线性规划无线网络最大最小公平性带宽分配算法[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
9 钟耕深;朱雅杰;;基于众包的商业模式优化[A];第五届(2010)中国管理学年会——组织与战略分会场论文集[C];2010年
10 陈钦山;;VTS分布式系统的动态负载分配算法[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年
相关重要报纸文章 前10条
1 (美)杰夫·豪《连线》杂志著名资深编辑;众包——化整为零的革命[N];中国联合商报;2009年
2 君尚;中介和渠道全面让位众包服务平台[N];科技日报;2014年
3 凌曼文;众包:人人都来卖点子[N];中国计算机报;2006年
4 夏剑;众包革命:群众创新[N];中国企业报;2008年
5 本报记者 肖志飞;“众包”的魅力[N];医药经济报;2010年
6 张涵;建立有层级架构的“众包”模式[N];人民日报;2012年
7 羽哲;“春晚”可以尝试“众包”[N];科技日报;2013年
8 本报记者 王继征;众包模式能给纤维品牌带来什么?[N];中国纺织报;2014年
9 张凤岐;众包的价值[N];电脑商报;2009年
10 本报记者 张洁云;“众包”,多元化的解困路径?[N];医药经济报;2010年
相关博士学位论文 前10条
1 马巧云;基于多Agent系统的动态任务分配研究[D];华中科技大学;2006年
2 李勇;多Agent系统联盟及任务分配的研究[D];合肥工业大学;2008年
3 刘美;WSN多目标跟踪节点任务分配及跟踪算法研究[D];华南理工大学;2010年
4 梁晓雯;OFDM系统中自适应分配算法及其计算量的研究[D];中国科学技术大学;2006年
5 林素芬;基于众包参与者网络的众包绩效提升研究[D];华侨大学;2015年
6 庞建刚;众包社区创新的运营机制设计[D];中国科学技术大学;2014年
7 岳德君;众包质量评估与优化策略的研究[D];东北大学;2015年
8 向为;创意设计柔性众包的方法与应用[D];浙江大学;2017年
9 臧洁;分布式制造企业中协同生产任务分配的若干优化问题研究[D];东北大学;2011年
10 彭玲;众包平台用户接受与知识转移研究[D];华中科技大学;2012年
相关硕士学位论文 前10条
1 张宁;自治移动云中任务分配的设计与实现[D];内蒙古大学;2015年
2 张驰;无人机任务分配仿真平台设计与研究[D];西安电子科技大学;2014年
3 贾健;多平台防空协同任务分配问题研究[D];北京理工大学;2016年
4 程如洪;群智感知的任务分配和用户调度算法[D];中国科学技术大学;2016年
5 程静;具有随机属性的多无人机任务分配问题研究[D];合肥工业大学;2016年
6 李明;基于异构MAS的AGV协作系统任务分配方法研究[D];武汉工程大学;2016年
7 赵文卫;分布式爬虫系统中任务分配问题的研究[D];南京大学;2015年
8 陈永春;移动云计算的系统管理与优化方法研究[D];吉林大学;2017年
9 鲁昊;Multi-agent系统中动态任务分配研究[D];湖北大学;2012年
10 姚慧峰;移动云计算环境下任务分配问题的研究[D];南京邮电大学;2014年
,本文编号:2229354
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2229354.html