当前位置:主页 > 科技论文 > 搜索引擎论文 >

聚焦爬虫技术研究综述

发布时间:2018-05-19 05:52

  本文选题:聚焦爬虫 + 信息检索 ; 参考:《计算机应用》2005年09期


【摘要】:因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。
[Abstract]:In order to overcome the shortcomings of general search engines , the traditional general search engine can not provide satisfactory results pages . In order to overcome the shortcomings of general search engines , this paper presents the basic concept of focus crawler , outlines its working principles , and puts forward some research directions for focusing reptiles , including the research of data analysis and mining crawler technology , the description and definition of the subject , the discovery of related resources , the cleaning of the data and the extension of search space .
【作者单位】: 清华大学计算机科学与技术系 清华大学计算机科学与技术系
【基金】:国家自然科学基金资助项目(60173008)
【分类号】:TP393.02

【相似文献】

相关期刊论文 前10条

1 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期

2 何莹;;基于KPS的HTML数据抽取[J];网络安全技术与应用;2009年03期

3 丁黄望;丁要军;;模糊聚类分析及其在信息检索中的应用[J];福建电脑;2006年04期

4 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期

5 张晓卫;朱巧明;;一种基于Lucene的Web全文信息检索系统的设计与实现[J];计算机与现代化;2006年12期

6 曹冬林;林达真;;文本检索模型综述[J];心智与计算;2007年04期

7 杜光芹;张化祥;赵瑞东;;主题Web挖掘研究[J];计算机技术与发展;2008年02期

8 范会联;李献礼;曾广朴;;基于改进遗传算法的聚焦爬虫设计[J];计算机工程与科学;2010年05期

9 刘永泰;全文文本检索技术及其发展[J];中国信息导报;1998年04期

10 黄嘉满;张冬茉;;基于本体的商务领域文本检索的研究[J];微型电脑应用;2007年02期

相关会议论文 前10条

1 廖光忠;黄泽鑫;;基于HowNet语义算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年

3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年

7 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

8 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

9 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

10 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

相关重要报纸文章 前10条

1 希安;微软试水信息检索[N];经济日报;2004年

2 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年

3 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年

4 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年

5 叶静;开辟信息检索的新天地[N];人民邮电;2001年

6 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年

7 刘静一;个人档案信息检索[N];建筑报;2000年

8 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年

9 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年

10 刘立新;信息社会技术前瞻[N];学习时报;2006年

相关博士学位论文 前10条

1 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年

2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年

3 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年

4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年

5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年

6 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年

7 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年

8 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年

9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

10 杨志峰;稳定的信息检索方法及其在分布式环境下的应用[D];中国科学院研究生院(计算技术研究所);2003年

相关硕士学位论文 前10条

1 郭坤银;基于页面分块和链接分析的Web图片检索研究[D];重庆大学;2009年

2 倪贤贵;聚焦爬虫技术研究[D];江南大学;2008年

3 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年

4 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年

5 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年

6 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年

7 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年

8 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年

9 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年

10 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年



本文编号:1908960

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1908960.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3876e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com