垂直搜索引擎系统的研究与设计
发布时间:2017-12-16 11:04
本文关键词:垂直搜索引擎系统的研究与设计
更多相关文章: 垂直搜索引擎 倒排索引 网络爬虫 搜索策略 主题相关性
【摘要】:随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业人员,希望从互联网上得到更专业、更深入和更有价值的信息,不同的年龄段的人群对网上的信息也有着特定需求,有需求的地方就有市场,服务这些专门搜索需求的搜索引擎,即垂直搜索引擎近年来快速发展,成为了搜索引擎领域研究的热门方向。它提供某一个领域的专门的信息检索服务,更好地满足了专业用户的专业化和精细化信息查询需求。本文首先概述了垂直搜索引擎的总体设计,描述了垂直搜索引擎要实现的目标并介绍了垂直搜索引擎的工作原理,垂直搜索引擎的总体模块有网页信息的收集、网页信息的索引,网页信息排序和检索,其中垂直搜索引擎相比通用搜索引擎,重点在于网页信息收集时只收集主题相关的网页,这就要求垂直搜索引擎的爬行器按照一定的收集策略收集网页。传统的收集策略有两种,即基于网页内容分析的搜索策略和基于链接结构分析的搜索策略,它们都是单一的搜索策略,存在着一定的不足。本文提出了一个综合网页内容分析和链接结构分析的搜索策略。其中网页内容分析搜索策略有Fish-Search算法和Shark-Search算法,链接结构分析算法有PageRank算法和HITS算法,本文对这四大类算法分别进行了一一介绍,在此基础上,先提出改进PageRank算法,进而提出了综合的改进算法,期望能指导爬虫收集更多更好的主题相关的网页。为了测试改进后的算法是否有效,本文设计实现了一个网络爬虫软件:VSE—Spider,此系统多线程分布式地抓取互联网上和设定的主题相关的网页,系统的爬虫程序分别采用传统的网页搜索算法和本文提出的改进后的综合网页搜索算法,对VSE-Spider各组实验结果进行对比分析。结果表明,本文提出的改进后的综合搜索策略在收集主题相关网页时有着更好的表现。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【参考文献】
中国期刊全文数据库 前4条
1 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
3 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期
4 张博;蔡皖东;;面向主题的网络蜘蛛技术研究及系统实现[J];微电子学与计算机;2009年05期
中国硕士学位论文全文数据库 前6条
1 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
2 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
3 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
4 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
5 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
6 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年
,本文编号:1295770
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1295770.html