大规模垂直搜索方法的研究与实现

发布时间：2021-01-26 01:05

　　随着互联网的蓬勃发展,Web中每天都会产生大量的网页,这些网页内容千差万别。面对海量的Web网页信息资源,搜索引擎作为信息获取的重要工具,越来越难以提供精确地查询服务。因此,提供与某特定领域主题相关、为用户提供更加及时、准确的查询服务的垂直搜索引擎应运而生。主题爬虫是垂直搜索引擎的核心模块,负责对Web网页进行垂直搜索,将主题相关的网页存储到本地,供垂直搜索引擎建立索引和为用户提供查询服务。在大规模垂直搜索时,如何准确地判断一个网页是否主题相关、以什么样的搜索策略搜索Web网页,是垂直搜索的两个关键问题。基于网页内容的搜索策略将整个网页内容作为主题判别的关键因素,容易受到网页中包含的广告、图片和Flash动画等“噪音”信息的干扰,导致判别的准确率很低。此外,如果主题爬虫只从主题相关的页面中提取链接,往往容易忽略一些有价值的导航型网页中包含的目标主题链接。本文针对这些问题进行研究,重点集中在主题爬虫的搜索策略和页面链接的价值评估上,提出基于网页特征加权的主题判别算法和基于块提取的链接价值评估方法。论文的主要工作和创新点如下:（1）提出一种网页特征加权的主题判别算法。通过对HTML网页标签...

【文章来源】：北京交通大学北京市 211工程院校教育部直属院校

【文章页数】：81 页

【学位级别】：硕士

【部分图文】：

大规模垂直搜索方法的研究与实现

图２－２搜索引擎体系结构框图??Ｆｉｇ?２－２?Ｔｈｅ?ａｒｃｈｉｔｅｃｔｕｒｅ?ｄｉａｇｒａｍ?ｏｆ?Ｓｅａｒｃｈ?ｅｎｇｉｎｅ??６??

工作流程图,通用网络,队列,工作流程图

获取网页信息，实现信息覆盖的最大化。一般情况下，为了提高爬虫的搜索效率，??搜索引擎会采用多个爬虫程序同时进行网页抓取的工作。通用网络爬虫的工作流??程大致如图２－３所示：??（开始）???？初始种子ＵＲＬ?？????Ｉ???ＵＲＬ?网页下载??１?｜???｜解析网页获取新的链接ＵＲＬ并添??加到待爬去ＵＲＬ队列中??Ｉ??网页存储??————??Ｙｅｓ??Ｃ结；）??图２－３通用网络爬虫工作流程图??Ｆｉｇ?２－３?Ｔｈｅ?ｗｏｒｋ?ｆｌｏｗ?ｃｈａｒｔ?ｏｆ?Ｗｅｂ?ｃｒａｗｌｅｒ??通用网络爬虫在信息抓取的过程中，一般会维护一个待访问ＵＲＬ队列集合和??一个己访问ＵＲＬ队列集合。待访问的ＵＲＬ队列集合中开始存放的是初始访问链??接ＵＲＬ。通用爬虫的网页搜索过程中，从待访问ＵＲＬ队列集合中获取初始链接??ＵＲＬ，然后向对应服务器发送ＨＴＴＰ请求，服务器将作出ＨＴＴＰ响应，返回其对??应的网页。然后通用网络爬虫解析页面获取链接ＵＲＬ，将未访问过的ＵＲＬ放入到??待访问ＵＲＬ队列集合中，将己访问过的ＵＲＬ放入到己访问ＵＲＬ队列集合中，最??后将网页按照指定的数据存储结构存储到网页数据库中，循环上述操作直到待访??问ＵＲＬ队列集合为空或者达到指定的结束条件。通用网络爬虫的具体体系结构如??图２－４所示：??９??

工作流程图,通用网络,体系结构,队列

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3000208.html

上一篇：移动端新闻平台信息设计要素对视觉搜索效率的影响机制
下一篇：改进的引力搜索算法在锅炉汽包水位PID控制上的应用研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|