垂直搜索引擎主题爬虫搜索策略研究
本文关键词: 垂直搜索引擎 网络爬虫 主题爬虫 搜索策略 出处:《科技信息》2013年24期 论文类型:期刊论文
【摘要】:主题爬虫是垂直搜索引擎的关键构建,其搜索算法的优劣直接影响到搜索引擎的查全率和查准率。本文简要介绍了垂直搜索引擎中主题爬虫的工作原理;归纳了常见的几种搜索策略算法;分析了主题爬虫的搜索策略的特点,并比较了几种搜索策略的优缺点;总结了提高主题爬虫搜索效率的关键因素及发展趋势;为后期的学习和研究打下基础。
[Abstract]:Topic crawler is the key construction of vertical search engine, and its search algorithm directly affects the recall and precision of search engine. This paper briefly introduces the working principle of theme crawler in vertical search engine. Several common search strategy algorithms are summarized. This paper analyzes the characteristics of the search strategy of topic crawler, and compares the advantages and disadvantages of several search strategies. The key factors and development trend of improving the search efficiency of theme crawler are summarized. Lay the foundation for later study and research.
【作者单位】: 湖北中医药大学信息工程学院;
【分类号】:TP391.3
【正文快照】: 1.引言通用搜索引擎在web搜索和挖掘中存在定位不准确、排序不合理等问题。作为一种新型搜索引擎服务模式的垂直搜索,能够排除冗杂信息,减少不相关的检索结果,提高搜索效率,专门针对某一特定领域、特定人群或特定需求提供有一定价值的服务,在各专业领域的搜索和挖掘中正发挥
【参考文献】
相关期刊论文 前1条
1 黄旭;朱艳琴;罗喜召;;基于内容评价的爬虫搜索策略研究[J];微电子学与计算机;2008年11期
相关博士学位论文 前1条
1 管子玉;基于图学习的Web信息检索技术研究[D];浙江大学;2010年
【共引文献】
相关期刊论文 前3条
1 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
2 魏晶晶;杨定达;廖祥文;;基于网页内容相似度改进算法的主题网络爬虫[J];计算机与现代化;2011年09期
3 贺晟;程家兴;蔡欣宝;;基于模拟退火算法的主题爬虫[J];计算机技术与发展;2009年12期
相关硕士学位论文 前2条
1 贺晟;搜索引擎中主题网络爬虫的研究与设计[D];安徽大学;2010年
2 赵勇;基于社会标注的主题爬虫研究[D];华中科技大学;2009年
【二级参考文献】
相关期刊论文 前4条
1 杜亚军,严兵,宋亮;爬行虫算法设计与程序实现[J];计算机应用;2004年01期
2 袁薇;高淼;;搜索引擎系统中个性化机制的研究[J];微电子学与计算机;2006年02期
3 郭晔;;Internet中的页面价值快速算法模型研究[J];微电子学与计算机;2007年08期
4 欧阳柳波,李学勇,李国徽,王鑫;网络蜘蛛搜索策略进展研究[J];小型微型计算机系统;2005年04期
【相似文献】
相关期刊论文 前10条
1 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
2 施Oz;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
3 焦强;束怡;戴昌林;;药学垂直搜索引擎平台的建立与技术研究[J];药学进展;2010年04期
4 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
5 林碧霞;尹治本;;基于领域本体的垂直搜索引擎模型的研究[J];铁路计算机应用;2010年11期
6 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
7 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期
8 曾水香;罗林波;;基于改进Hits算法的多主题爬虫研究与实现[J];福建电脑;2010年05期
9 胡永锋;;浅谈垂直搜索引擎的工作原理[J];科学大众(科学教育);2011年06期
10 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
相关会议论文 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
9 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
相关重要报纸文章 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
相关博士学位论文 前8条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
7 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
相关硕士学位论文 前10条
1 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
2 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
3 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 王俊;面向房产领域的垂直搜索引擎研究与实现[D];南昌大学;2012年
5 李亚;垂直搜索引擎的研究与设计[D];武汉理工大学;2010年
6 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
8 林伟;垂直搜索引擎关键技术的研究与实现[D];华南理工大学;2011年
9 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
10 许厚金;垂直搜索引擎及其关键方法研究[D];燕山大学;2010年
,本文编号:1455377
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1455377.html