基于Heritrix的主题爬虫在互联网舆情系统中应用
[Abstract]:In the era of information explosion, the search results of general search engines can not meet the needs of people, and more attention has been paid to vertical search engines that can obtain more accurate and comprehensive information. As the core part of vertical search engine, topic crawler has always been the research hotspot in search direction. Based on Heritrix, an open source web crawler, this paper analyzes its structure and working principle, introduces an improved method of multithread processing, and designs a theme crawler to test the performance of the crawler in a single machine environment. The experimental results show that the recall rate of the subject crawler reaches a high level, which lays a solid foundation for further research and development of vertical search engine with high search efficiency.
【作者单位】: 江苏科技大学计算机科学与工程学院;
【基金】:镇江市社会发展项目(SH2013015)
【分类号】:TP391.3
【共引文献】
相关期刊论文 前6条
1 杜娟娟;郑丽英;;基于模拟退火遗传算法的主题爬虫搜索策略研究[J];科技风;2012年16期
2 贺晟;程家兴;蔡欣宝;;基于模拟退火算法的主题爬虫[J];计算机技术与发展;2009年12期
3 樊多妮;李禹生;;基于Heritrix的网络主题爬虫算法研究与应用——以粮食网站交易信息为例[J];现代物业(上旬刊);2012年09期
4 方帅;李林;张晓东;;面向地震宏观异常的主题爬虫研究[J];震灾防御技术;2013年04期
5 林子皓;;主题爬虫的设计与实现[J];计算机技术与发展;2014年08期
6 李慧;胡辉;庄冬梅;;农产品供需对接系统中主题网络爬虫的设计与实现[J];现代计算机(专业版);2015年04期
相关硕士学位论文 前10条
1 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
2 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
3 苏希乐;面向手机信息的垂直搜索引擎[D];西安工业大学;2012年
4 张明远;基于粒计算的智能搜索引擎技术研究[D];武汉理工大学;2010年
5 李伟;面向远程教育主题搜索引擎的研究与实现[D];西安电子科技大学;2012年
6 张丽莎;林业动态信息快速搜索与集成[D];中南林业科技大学;2013年
7 杜娟娟;主题爬虫算法的研究与实现[D];兰州交通大学;2013年
8 陈英;基于语义的美食垂直搜索研究[D];武汉科技大学;2013年
9 曹宇;面向开源软件的聚类搜索系统设计与实现[D];国防科学技术大学;2012年
10 许超;面向信息安全的垂直搜索引擎的研究与实现[D];华东理工大学;2014年
【二级参考文献】
相关期刊论文 前6条
1 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期
2 曹红,袁津生;林业主题搜索引擎研究[J];计算机应用;2004年S2期
3 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
4 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
5 陈竹敏;马军;韩晓晖;雷景生;;面向主题爬取的多粒度URLs优先级计算方法[J];中文信息学报;2009年03期
6 薛建春;段红梅;蔡松;;定题搜索引擎的设计与实现[J];微计算机信息;2007年21期
相关博士学位论文 前1条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
相关硕士学位论文 前1条
1 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年
【相似文献】
相关期刊论文 前10条
1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
相关会议论文 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
相关重要报纸文章 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
相关博士学位论文 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
相关硕士学位论文 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
,本文编号:2133367
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2133367.html