垂直搜索引擎中聚焦爬虫技术的研究
本文关键词:垂直搜索引擎中聚焦爬虫技术的研究,由笔耕文化传播整理发布。
《哈尔滨工程大学》 2012年
垂直搜索引擎中聚焦爬虫技术的研究
刘丽杰
【摘要】:随着互联网的高速发展,多元化信息呈几何级数增长,用户对于信息检索服务也提出了越来越高的要求,尤其是在检索结果的专业性和准确性上,而通用搜索引擎的检索能力无法满足这种需求,垂直搜索引擎应运而生。它是一种全新的搜索服务模式,是为某一特定专业、人群或主题的需求提供服务的。针对通用搜索引擎而言,垂直搜索引擎具有检索更精确、专注、具体和深入的特点。 聚焦爬虫作为垂直搜索引擎的核心部件,它采用何种搜索策略检索Web资源会直接影响到垂直搜索引擎的优劣,因此近年来聚焦爬虫已成为垂直搜索引擎研究中的热点领域之一。论文详细的阐述了垂直搜索引擎和聚焦爬虫的相关概念、工作原理及主要关键技术,在仔细研究搜索引擎中现有经典的搜索策略、主题相关性判别算法及页面的分布特征的基础上,提出基于主题相关度和页面重要性相结合的立即价值来判别页面主题相关性,并采用自适应免疫算法指导聚焦爬虫的爬行策略,取得了较好的实际效果。同时针对基于单一价值评价的聚焦爬虫搜索策略存在主题漂移等不足,提出一种基于量子进化算法(QBEA)的智能爬行算法,该算法充分结合网页在互联网上的分布特点,利用立即价值和未来价值两类评价标准的优势,根据聚焦爬虫实际运行过程中的搜索情况,在线调整这两种标准在综合价值中的比重,通过实验仿真结果可知,量子进化算法获得较高的页面查全率和信息查准率,,能较好地解决现存问题,具有一定的自适应性。 最后,针对实际应用需要,将所提聚焦爬虫搜索策略应用到实际系统中,并在系统中引入了Oracle SES技术,运行结果表明本文的工作是有效的,具有一定的创新性和实际应用价值。
【关键词】:
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
3 唐雅媛;;基于搜索引擎的网络蜘蛛实现原理的研究[J];湖南科技学院学报;2006年11期
4 左兴权,李士勇;一种用于优化计算的自适应免疫算法[J];计算机工程与应用;2003年20期
5 陈一峰;赵恒凯;余小清;万旺根;;基于遗传算法的主题爬虫策略改进[J];计算机仿真;2010年10期
6 刘朋;林泓;高德威;;基于内容和链接分析的主题爬虫策略[J];计算机与数字工程;2009年01期
7 王靖,肖明君,蔡庆生;一种基于Web的智能搜索方法[J];计算机应用研究;2001年11期
8 郑国良;叶飞跃;张滨;林国俊;;基于网页内容和链接价值的相关度方法的实现[J];计算机工程与设计;2008年23期
9 童亚拉;;自适应动态演化粒子群算法在Web主题信息搜索中的应用[J];武汉大学学报(信息科学版);2008年12期
10 贺晟;程家兴;蔡欣宝;;基于模拟退火算法的主题爬虫[J];计算机技术与发展;2009年12期
中国硕士学位论文全文数据库 前10条
1 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
3 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
4 肖亮;垂直搜索引擎的研究与实现[D];北京交通大学;2008年
5 吕玉鹏;基于领域本体的网页信息采集与检索研究[D];大连理工大学;2008年
6 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
7 蔡阳波;基于主题策略的网络爬行器算法研究[D];重庆大学;2008年
8 段一飞;垂直搜索引擎主题特征提取及相关度算法研究[D];长安大学;2007年
9 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
10 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
3 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
4 于波;强明辉;余亚冰;李晓斌;;综合智能控制策略在真空退火炉中的应用[J];电气自动化;2010年03期
5 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
6 刘文浩;谢韬;吴进;;基于Heritrix和HTMLParser的网页商品信息提取的研究[J];计算机光盘软件与应用;2012年08期
7 李晓斌;左磊;于波;;一种自适应免疫遗传算法及其在系统辨识和参数优化中的应用[J];兰州理工大学学报;2006年03期
8 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期
9 苗菲;左春柽;张文博;;基于免疫理论的仿生优化算法[J];长春工业大学学报(自然科学版);2008年01期
10 吴晓平;张长利;朱丽娜;;基于网页内容块策略的主题爬行[J];计算机工程与应用;2008年09期
中国重要会议论文全文数据库 前1条
1 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前6条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
3 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
4 宋晓琳;基于免疫算法的汽车主动悬架控制技术研究[D];湖南大学;2007年
5 辛菁;机器人无标定视觉伺服控制系统研究[D];西安理工大学;2007年
6 李晓斌;阳极焙烧系统的检测、建模与控制[D];西安理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
6 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
7 高峰;基于兴趣分类的用户行为分析系统的研究[D];山东大学;2010年
8 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
9 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
10 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 高磊;徐东平;;启发式算法在搜索引擎的应用[J];电脑知识与技术(学术交流);2007年02期
4 王知人;章胤;李新乔;;一种改进的模拟退火算法[J];高等学校计算数学学报;2006年01期
5 许一震,王永成,吴芳芳;一种基于反向有限自动机的匹配算法[J];高技术通讯;2001年02期
6 朱素媛,马溪俊,梁昌勇;人工智能技术在搜索引擎中的应用[J];合肥工业大学学报(自然科学版);2003年S1期
7 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期
8 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
9 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
10 杨沛,郑启伦,彭宏;Inherit/Feedback:一种新的Web主题挖掘方法[J];计算机研究与发展;2004年05期
中国博士学位论文全文数据库 前2条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
3 谢琴;蚁群算法在Web日志挖掘中的研究与应用[D];重庆大学;2006年
4 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
5 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年
6 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
7 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年
8 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
9 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年
10 张宏松;基于Lucene的web站内英文PDF文档全文检索研究[D];辽宁工程技术大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
中国重要会议论文全文数据库 前3条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
2 王艳;[N];中国旅游报;2000年
3 赛迪网 方刚;[N];中国计算机报;2000年
4 王靖;[N];人民日报海外版;2000年
5 记者 王浒;[N];中国旅游报;2009年
6 本报记者 王宏;[N];中国计算机报;2001年
7 徐瑾 张玉;[N];人民邮电;2009年
8 本报记者 王晓雁;[N];法制日报;2009年
9 记者 吴德群;[N];深圳特区报;2009年
10 本报记者 胡钰;[N];华夏时报;2009年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
本文关键词:垂直搜索引擎中聚焦爬虫技术的研究,由笔耕文化传播整理发布。
本文编号:213859
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/213859.html