当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多Agent系统的主题爬行虫协作与实现方法研究

发布时间:2020-03-02 02:10
【摘要】:互联网信息以指数级增长,给通用搜索引擎带来巨大压力,使得通用搜索引擎搜索结果不全面,对于用户输入的查询词,返回大量的无关信息,这就使得主题爬行虫诞生。主题爬行虫只抓取与主题相关的网页,忽略掉与主题无关的网页,这样减少了大量的时间在爬行无关网页上。并且主题爬行虫具有爬行时间少,存储空间小,以及能够更好的满足用户的个性化需求等优势,这也同时促进了主题爬行虫的发展。 对于各种传统的主题爬行虫,它们在爬行过程中至始至终都是相互独立工作的,多个爬行虫之间没有交流与协作,使得这些爬行虫在爬行的过程中不能及时的进行交流来实现信息共享,出现爬行区域重合和爬行效率不高的状态。将多Agent的理论用于主题爬行虫之间的通信和协作,为提高主题爬行虫爬行网页的准确率和爬行效率提供了新的方向。本文将每一个主题爬行虫看做一个Agent,使得主题爬行虫具有自主、灵活、交互等特性,并且采用多Agent的知识来实现多个主题爬行虫在网页爬行过程中的协作,从而提高爬行虫的爬行精度和爬行效率。 论文的主要研究内容包括以下几点: 1.本文提出了一种招标能力值的度量方法。该招标能力度量方法用于评价一个Agent是否具有招标能力,从而决定该Agent是否要发布招标信息。这个能力函数不仅考虑了爬行虫的爬行历史网页的重要度,而且考虑了已爬行网页的链接分值。实验证明该能力函数能更准确地评价Agent的招标能力。 2.本文提出了一种新的多Agent的主题爬行虫组织结构。在这个组织结构中,所有Agent被分成三类:F-Agent(Facilitator-Agent), As-Agent(Assistance-Agent),和C-Agent (Crawler-Agent),他们各尽其责并且相互协作共同完成网页爬行任务。 3.本文提出了多Agent主题爬行虫的协作模型。一种改进的合同网协议被用来实现多Agent主题爬行虫之间的协作,并且详细论述了改进的合同网协议中的招标、投标、合同签订、合同终止四个过程。针对该协作模型,本文提出了多Agent主题爬行虫系统的系统框架和工作流程。 文章的最后,采用JADE平台实现了本文提出的多Agent主题爬行虫,并且在爬行精度和爬行效率上面与其它四种主题爬行虫进行比较,最终实验证明,本文提出的多Agent主题爬行虫不仅可以减少爬行虫的网络爬行重合度,而且具有更高的爬行精度和爬行效率。
【图文】:

重合度,主题,网页


上面提到的主题爬行虫不仅具有学习能力,而且能够很好的满足用户个性化的需但是,这些主题爬行虫在爬行过程中至始至终都是相互独立工作的,爬行虫之间没流与协作,这些主题爬行虫将会面临下面两种问题:(1) 不同的网页具有相同的网页链接,如果一个主题爬行虫不能够和其他的爬行虫交流,它可能会爬行一个其他爬行虫已经爬过的区域,这样就存在不同主题爬行虫的网页爬行的重合度的问题。(2)当一个爬行虫的爬行任务太重或者太轻时,它不能够请求其他爬行虫的帮助,就不能让爬行虫更早地发现高质量的网页,同时也导致了爬行精度和爬行效率的下

主题,网页,重合度,至终


上面提到的主题爬行虫不仅具有学习能力,而且能够很好的满足用户个性化的需但是,,这些主题爬行虫在爬行过程中至始至终都是相互独立工作的,爬行虫之间没流与协作,这些主题爬行虫将会面临下面两种问题:(1) 不同的网页具有相同的网页链接,如果一个主题爬行虫不能够和其他的爬行虫交流,它可能会爬行一个其他爬行虫已经爬过的区域,这样就存在不同主题爬行虫的网页爬行的重合度的问题。(2)当一个爬行虫的爬行任务太重或者太轻时,它不能够请求其他爬行虫的帮助,就不能让爬行虫更早地发现高质量的网页,同时也导致了爬行精度和爬行效率的下
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3;TP18

【参考文献】

相关期刊论文 前10条

1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期

2 张少苹;戴锋;王成志;张覃;;多Agent系统研究综述[J];复杂系统与复杂性科学;2011年04期

3 罗柏发;林航;董凤娇;;基于可信联盟的多Agent协作模型研究及应用[J];桂林电子科技大学学报;2011年01期

4 陈刚,陆汝钤;关系网模型——基于社会合作机制的多Agent协作组织方法[J];计算机研究与发展;2003年01期

5 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期

6 刘东飞;邓俊涛;邓浩;;智能搜索引擎中的多Agent协作策略研究[J];软件导刊;2007年01期

7 刘大有,杨鲲,陈建中;Agent研究现状与发展趋势[J];软件学报;2000年03期

8 杜亚军;;网络爬行虫智能化研究分析[J];西华大学学报(自然科学版);2010年02期

9 倪贤贵;蔡明;;基于链接结构和内容相似度的聚焦爬虫系统[J];计算机工程与设计;2008年07期

10 刘文财,刘豹,王启文,张维;基于Agent的金融市场模型研究进展综述[J];系统工程学报;2003年02期

相关硕士学位论文 前6条

1 韩保川;基于用户兴趣本体的初始URLs选择方法的研究[D];西华大学;2011年

2 郑俊辉;Multi-Agent技术研究[D];西南石油学院;2003年

3 向丹;专业搜索引擎中的多Agent协调研究[D];西华大学;2008年

4 杨月奎;基于语义的主题爬行方向研究[D];西华大学;2009年

5 彭强强;基于概念背景图的主题爬行策略研究[D];西华大学;2010年

6 王莹煜;基于多Agent系统的主题爬虫理解与协作研究[D];西华大学;2010年



本文编号:2584215

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2584215.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户56317***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com