基于关键词相关度的Deep Web爬虫爬行策略
发布时间:2019-07-25 15:30
【摘要】:Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。
[Abstract]:Deep Web contains rich and high quality information resources. In order to obtain the page of a Deep Web site, users have to type a series of keyword sets. Most search engines are currently unable to find Deep Web pages because there are no static links to them. The Deep Web crawler crawling strategy proposed in this paper can effectively download Deep Web pages. Because the page provides only one query interface, the main challenge for Deep Web crawler design is how to select the best query keywords to generate meaningful queries. The experimental results show that the proposed method is effective based on the correlation weight of different keywords.
【作者单位】: 上海理工大学计算机工程学院;
【分类号】:TP393.09
本文编号:2519178
[Abstract]:Deep Web contains rich and high quality information resources. In order to obtain the page of a Deep Web site, users have to type a series of keyword sets. Most search engines are currently unable to find Deep Web pages because there are no static links to them. The Deep Web crawler crawling strategy proposed in this paper can effectively download Deep Web pages. Because the page provides only one query interface, the main challenge for Deep Web crawler design is how to select the best query keywords to generate meaningful queries. The experimental results show that the proposed method is effective based on the correlation weight of different keywords.
【作者单位】: 上海理工大学计算机工程学院;
【分类号】:TP393.09
【相似文献】
相关期刊论文 前10条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 潘春华,冯太明,武港山;基于移动爬虫的专用Web信息收集系统的设计[J];计算机工程与应用;2003年36期
3 齐冬梅,杜亚军,李战胜;个性化智能搜索引擎爬行虫算法[J];计算机应用;2004年S2期
4 严亚兰,查先进;Web网页并行爬行研究[J];计算机应用研究;2005年04期
5 邵斐;孙济庆;;一种适用于动态网页的网络蜘蛛爬行策略研究[J];情报杂志;2007年05期
6 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期
7 田野;丁岳伟;;基于关键词相关度的Deep Web爬虫爬行策略[J];计算机工程;2008年15期
8 刘朋;林泓;高德威;;基于内容和链接分析的主题爬虫策略[J];计算机与数字工程;2009年01期
9 黄莉;王成良;杨铮;;面向主题网络爬行的智能隧道穿越算法研究[J];计算机应用研究;2009年08期
10 黄聪会;张水平;胡洋;;主题Deep Web爬虫框架研究[J];计算机工程与设计;2010年05期
相关硕士学位论文 前3条
1 唐志;主题Web信息采集与分析技术研究[D];重庆大学;2006年
2 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年
3 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
,本文编号:2519178
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2519178.html