自适应最优搜索算法的网络蜘蛛的设计与实现
本文关键词: 个性化网络蜘蛛 最优搜索算法 在线增量自学习 网页信噪比 网络搜索引擎 链接 自适应 搜索策略 相关页面 局部最优 出处:《计算机应用》2007年11期 论文类型:期刊论文
【摘要】:主题搜索引擎NonHogSearch改进了采用最优搜索算法的网络蜘蛛的搜索过程,控制了搜索的贪婪程度;并引入网页信噪比概念,从而判断网页是否属于所要搜索的主题页面;进一步,NonHogSearch在爬行过程中自动更新链接的权重,当得到主题相关页面时产生回报,将回报沿链接链路逆向反馈,更新链路上所有链接的Q值,这样避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,并通过并行方式实现多条链路的同时搜索,改进了搜索引擎的性能。实验证实了该算法在查全率与查准率两方面都有一定的优越性。
[Abstract]:The subject search engine NonHogSearch improves the search process of the web spider using the optimal search algorithm, controls the greedy degree of the search, and introduces the concept of signal-to-noise ratio (SNR) of the web page to determine whether the web page belongs to the subject page to be searched. Furthermore, NonHogSearch automatically updates the link weight during crawling, which produces a return when the topic related page is obtained, and updates the Q value of all links along the link by reverse-feedback along the link. In this way, web spiders are not caught in the trap of local optimal subspace in Web search space prematurely, and multiple links can be searched simultaneously by parallel way. The performance of the search engine is improved and the experiment results show that the algorithm has some advantages in both recall and precision.
【作者单位】: 广东技术师范学院电子与信息学院 广东技术师范学院培训中心
【基金】:广东省自然科学基金资助项目(06025383)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
2 路晓伟,蒋馥;基于模拟退火的复合嵌套分割算法[J];系统工程与电子技术;2004年01期
【共引文献】
相关期刊论文 前6条
1 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
2 郑健珍;林坤辉;周昌乐;康恺;;基于本体语义的定题爬虫[J];山东大学学报(理学版);2006年03期
3 王斌;谢庆生;刘丹;王晓;;Web教学资源主题检索系统的设计与实现[J];现代图书情报技术;2006年01期
4 路晓伟;蒋馥;侯立文;;基于NP算法的CRM中客户识别特征的选择[J];系统工程学报;2005年06期
5 傅向华;冯博琴;;一种支持复杂查询的有组织P2P搜索方法[J];小型微型计算机系统;2006年03期
6 傅向华;冯博琴;;主题驱动的P2P分布式信息搜索机制研究[J];小型微型计算机系统;2006年04期
相关硕士学位论文 前10条
1 代扬;模拟集成电路自动化设计方法的研究[D];湖南大学;2004年
2 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
3 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年
4 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年
5 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年
6 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
7 王庆涛;基于本体的Web信息采集研究[D];中南大学;2007年
8 魏霞;面向网络教育的学习评价依据采集系统的研究与实现[D];浙江工业大学;2007年
9 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
10 常庆;风险主题搜索引擎相关技术的研究与应用[D];西北大学;2008年
【二级参考文献】
相关期刊论文 前1条
1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
【相似文献】
相关期刊论文 前5条
1 朱明,王俊普,蔡庆生;一种最优特征集的选择算法[J];计算机研究与发展;1998年09期
2 米粮川,胡文龙,彭海良;基于最优搜索算法的自动航线生成[J];电光与控制;2000年03期
3 谭冠政,肖宏峰,王越超;具有不完全微分的最优模糊PID控制器及其在智能人工腿中应用的仿真研究(英文)[J];控制理论与应用;2002年03期
4 彭鹏远;基于最优搜索算法的自动货运线路生成[J];电脑与信息技术;2002年03期
5 周颖,王雪松,王国玉,赵锋,刘忠;相控阵雷达最优搜索随机规划研究[J];现代雷达;2005年04期
相关硕士学位论文 前1条
1 米粮川;基于最优搜索算法的自动航线生成[D];中国科学院电子学研究所;2000年
,本文编号:1499897
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1499897.html