垂直搜索引擎中智能爬虫系统的研究与实现
[Abstract]:With the development of information technology, search engine has become the entrance of the Internet. Vertical search engine collects data deeply in vertical field and processes it to provide accurate and professional search service with wide attention and market demand. Intelligent crawler is an important part of vertical search engine. Because of its strong professional background, narrow coverage, different intelligent reptiles have great differences in architecture and strategy, but also face the accuracy of thematic correlation, a large number of collection difficulties in small areas and so on. Aiming at the technical difficulties of intelligent crawler in vertical search engine, this paper studies the related technologies and puts forward a solution. Under the principle of plug-in and distributed design, a complete intelligent crawler system is designed and implemented. At the same time, the function and performance of the system are tested. The main work of this paper is as follows: (1) A text feature extraction method based on LDA is designed. A link prediction model based on anchor text features and the relevance of page themes is established. (2) A multi-strategy anti-reptilian scheme and proxy server filtering process are designed. (3) the high availability of two layers and three instances based on Bloomfilter is proposed. Persistent URL reshuffling scheme solves the fast and accurate weight removal of mass URL. (4) the design of other functions of intelligent reptiles is completed and the complete system is coded. The function and performance of the intelligent crawler system are verified and tested by setting up the experimental topology environment and deploying the crawler system. The experimental results show that the design and implementation of this paper reach the expected goal and improve the intelligence and efficiency of reptiles.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
3 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
4 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
5 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
6 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
7 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
8 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
9 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
10 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
相关会议论文 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
相关重要报纸文章 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
相关博士学位论文 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
相关硕士学位论文 前10条
1 王松;垂直搜索引擎中智能爬虫系统的研究与实现[D];北京邮电大学;2017年
2 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
3 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
5 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年
6 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年
7 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年
8 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年
9 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
10 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
,本文编号:2389586
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2389586.html