面向垂直搜索引擎的Web站点划分方案
本文选题:垂直搜索引擎 + 任务分配 ; 参考:《计算机工程》2010年08期
【摘要】:分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式——网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。将网站划分算法应用于样本数据集,验证其有效性。
[Abstract]:According to the characteristics of vertical search engine, this paper presents a task allocation method, which is more finer than the traditional method, that is, web site partition. In this way, the larger web sites are divided into smaller subsets, and the subsets are handed over to a number of crawler nodes to grab them in parallel, so as to speed up the overall acquisition rate of the crawler system, and as an effective optimization to the traditional methods. The website partition algorithm is applied to the sample data set to verify its validity.
【作者单位】: 哈尔滨工业大学计算机学院;
【基金】:国家自然科学基金资助项目(60703014) 国家“973”计划基金资助项目(G2005CB321806) 高等学校博士学科点专项科研基金资助项目(20070213044) 哈尔滨工业大学优秀青年教师培养计划基金资助项目(HITQNJS2007034)
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 卢敏;;垂直搜索——我专故我在[J];软件世界;2006年23期
2 顾鹏尧;“大话搜索引擎”[J];信息技术教育;2003年04期
3 王左利;;搜索的花样年华[J];中国教育网络;2007年06期
4 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
5 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
6 ;垂直搜索互联网搜索业的新军[J];数字通信世界;2006年12期
7 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
8 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
9 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
10 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
相关会议论文 前10条
1 王珏;卢艳平;张泽宏;邹永宁;;一种有记忆的变窗“爬虫”图像边界跟踪方法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
2 李楠;刘国栋;;基于局部视角的全局进化策略[A];2005中国机器人大赛论文集[C];2005年
3 刘磊;贾红雨;曲翠玉;;基于Multi-Agent技术的车辆调度任务分解机制的研究[A];第六届交通运输领域国际学术会议论文集(下卷)[C];2006年
4 李晓磊;张承进;田国会;张攀;;基于智能主体系统的物资储配系统建模[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 孟鹏;王林平;王R,
本文编号:2108980
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2108980.html