基于多Agent系统的定题爬虫算法
发布时间:2018-03-16 10:46
本文选题:定题爬虫 切入点:主题关键字过滤 出处:《计算机工程》2008年16期 论文类型:期刊论文
【摘要】:定题爬虫的研究是定题搜索引擎的关键技术。该文提出一种基于多Agent系统的爬虫算法,采用本题语义主题关键词过滤的方法来抓取与主题相关的网页,利用本体库语义网络实现本体领域中同近义词的过滤。凭借HTML网页标记对关键字识别的不同权重和超链接锚文本对主题相关网页进行预测,通过黑板的通信机制实现多Agent交互。实验结果表明算法在抓取网页的查准率、查全率方面有一定的改善。
[Abstract]:The research of topic crawler is the key technology of topic search engine. In this paper, a crawler algorithm based on multiple Agent system is proposed. The semantic network of ontology library is used to filter the synonyms in ontology domain. With the help of different weights and hyperlink anchor text recognized by HTML web page tags, the relevant web pages are predicted. The experiment results show that the algorithm can improve the precision and recall of web pages.
【作者单位】: 江苏大学计算机科学与通信工程学院;
【基金】:江苏省科技攻关基金资助重点项目(BE2004093)
【分类号】:TP18;TP391.3
【相似文献】
相关硕士学位论文 前1条
1 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
,本文编号:1619587
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1619587.html