垂直搜索引擎中主题爬虫搜索策略研究与实现
本文关键词:简析搜索引擎中网络爬虫的搜索策略,,由笔耕文化传播整理发布。
《沈阳建筑大学》 2013年
垂直搜索引擎中主题爬虫搜索策略研究与实现
徐晓艳
【摘要】:随着互联网的发展,Web信息资源与日俱增,搜索引擎成为人们获取网络信息资源的重要工具,然而通用搜索引擎在追求检索信息最大覆盖率的同时,降低了查找到的信息的准确度,所以目前存在的各种综合的搜索引擎越来越不能满足用户对信息检索服务的“专、精”等方面的需求,面向主题查询的垂直搜索引擎成为搜索引擎领域的一个新的发展方向。主题爬虫作为垂直搜索引擎的重要的组成部分,它的目标是尽可能地抓取与指定主题相关的网页,而过滤掉与主题无关的页面,其性能的好坏是影响信息检索的质量和效率的重要因素,所以设计一个高性能的主题爬虫成为垂直搜索引擎研究的重要课题之一。 论文的主要研究对象是作为垂直搜索引擎的重要组成部分的主题爬虫技术。首先概述了垂直搜索引擎和主题爬虫的研究现状、工作原理,指出主题爬虫相较于一般的网络爬虫在信息检索方面的优势,然后分析了主题爬虫的搜索策略,讨论主题爬虫预测主题的准确性和重要性。论文的研究工作围绕着网页中存在的文本内容和超链接信息对主题爬虫搜索策略的影响进行展开。 论文首先详细介绍了主题信息的表示、关键词的提取及其权重的计算和主题相关度算法。分析了关键词权重计算方法TF-IDF算法的不足之处并提出了改进方案。对于页面的主题相关度的计算,我们采用空间向量模型进行计算。 针对网页中的超链接优先级的判断问题,我们在传统的HITS算法的基础上,加入主题特征的影响因素,提出改进的HITS算法。对每个网页,我们利用三个向量(中心向量、权威向量、文本内容向量)来计算其主题相关度,尽量避免出现主题漂移现象,并讨论了网页中心值和权威值的计算公式。 现有的基于文本内容的搜索策略和基于链接分析的搜索策略都存在价值评价标准单一的缺点,本文将这两种搜索策略结合,提出了一种综合考虑的爬行策略,这种策略会在主题网络爬虫的不同的爬行阶段选择适合的最优的搜索策略。文章最后实现了基于综合爬行策略的主题爬虫系统。
【关键词】:
【学位授予单位】:沈阳建筑大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
2 罗方芳;陈国龙;郭文忠;;基于改进的Fish-search算法的信息检索研究[J];福州大学学报(自然科学版);2006年02期
3 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期
4 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
5 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
6 刘秋梅;郑耿忠;;基于WebSphinx的搜索引擎设计及研究[J];江西图书馆学刊;2006年01期
7 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
8 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
9 刘斌;陈桦;;向量空间模型信息检索技术讨论[J];情报杂志;2006年07期
10 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
5 黄洪;刘增良;余达太;;一种智能化的数据分类、分级及保护模型[J];北京工业大学学报;2011年06期
6 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
7 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
8 谢轶群;舒江波;;基于本体的构件库智能检索方法研究(英文)[J];湖南文理学院学报(自然科学版);2007年03期
9 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
10 王鑫;王英;;基于本体增量学习的主题爬行[J];长春工程学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前10条
1 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
4 胡金柱;舒江波;陈志伟;杜志强;窦桂琴;;基于本体构件的工作流检索研究[A];第四届中国软件工程大会论文集[C];2007年
5 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
6 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王联国;人工鱼群算法及其应用研究[D];兰州理工大学;2009年
6 唐素勤;面向语义Web的描述逻辑本体构建[D];中南大学;2011年
7 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 陈建辉;基于脑信息学的数据脑建模及其应用[D];北京工业大学;2011年
10 张杨;语义Web服务组合的可信性度量研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
6 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
7 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
10 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
3 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
4 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
5 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期
6 欧阳为民,蔡庆生;基于版本空间的并行概念学习[J];计算机研究与发展;1998年10期
7 贾崇,陆玉昌,鲁明羽;一种支持高效检索的即时更新倒排索引方法[J];计算机工程与应用;2003年29期
8 李军;黄海宽;曹琦;;基于支持向量机的中药工艺参数优化研究[J];计算机工程与应用;2007年36期
9 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
10 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期
中国重要会议论文全文数据库 前1条
1 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前1条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;[N];中国经营报;2006年
2 王艳;[N];中国旅游报;2000年
3 王靖;[N];人民日报海外版;2000年
4 杨国民;[N];经济日报;2007年
5 本报记者 王晓雁;[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
7 中新;[N];经理日报;2008年
8 源讯 编译;[N];计算机世界;2006年
9 赛迪网 方刚;[N];中国计算机报;2000年
10 ;[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
本文关键词:简析搜索引擎中网络爬虫的搜索策略,由笔耕文化传播整理发布。
本文编号:250300
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/250300.html