大规模垂直搜索方法的研究与实现
发布时间:2021-01-26 01:05
随着互联网的蓬勃发展,Web中每天都会产生大量的网页,这些网页内容千差万别。面对海量的Web网页信息资源,搜索引擎作为信息获取的重要工具,越来越难以提供精确地查询服务。因此,提供与某特定领域主题相关、为用户提供更加及时、准确的查询服务的垂直搜索引擎应运而生。主题爬虫是垂直搜索引擎的核心模块,负责对Web网页进行垂直搜索,将主题相关的网页存储到本地,供垂直搜索引擎建立索引和为用户提供查询服务。在大规模垂直搜索时,如何准确地判断一个网页是否主题相关、以什么样的搜索策略搜索Web网页,是垂直搜索的两个关键问题。基于网页内容的搜索策略将整个网页内容作为主题判别的关键因素,容易受到网页中包含的广告、图片和Flash动画等“噪音”信息的干扰,导致判别的准确率很低。此外,如果主题爬虫只从主题相关的页面中提取链接,往往容易忽略一些有价值的导航型网页中包含的目标主题链接。本文针对这些问题进行研究,重点集中在主题爬虫的搜索策略和页面链接的价值评估上,提出基于网页特征加权的主题判别算法和基于块提取的链接价值评估方法。论文的主要工作和创新点如下:(1)提出一种网页特征加权的主题判别算法。通过对HTML网页标签...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-2搜索引擎体系结构框图??Fig?2-2?The?architecture?diagram?of?Search?engine??6??
获取网页信息,实现信息覆盖的最大化。一般情况下,为了提高爬虫的搜索效率,??搜索引擎会采用多个爬虫程序同时进行网页抓取的工作。通用网络爬虫的工作流??程大致如图2-3所示:??(开始)????初始种子URL??????I???URL?网页下载??1?|???|解析网页获取新的链接URL并添??加到待爬去URL队列中??I??网页存储??————??Yes??C结;)??图2-3通用网络爬虫工作流程图??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用网络爬虫在信息抓取的过程中,一般会维护一个待访问URL队列集合和??一个己访问URL队列集合。待访问的URL队列集合中开始存放的是初始访问链??接URL。通用爬虫的网页搜索过程中,从待访问URL队列集合中获取初始链接??URL,然后向对应服务器发送HTTP请求,服务器将作出HTTP响应,返回其对??应的网页。然后通用网络爬虫解析页面获取链接URL,将未访问过的URL放入到??待访问URL队列集合中,将己访问过的URL放入到己访问URL队列集合中,最??后将网页按照指定的数据存储结构存储到网页数据库中,循环上述操作直到待访??问URL队列集合为空或者达到指定的结束条件。通用网络爬虫的具体体系结构如??图2-4所示:??9??
获取网页信息,实现信息覆盖的最大化。一般情况下,为了提高爬虫的搜索效率,??搜索引擎会采用多个爬虫程序同时进行网页抓取的工作。通用网络爬虫的工作流??程大致如图2-3所示:??(开始)????初始种子URL??????I???URL?网页下载??1?|???|解析网页获取新的链接URL并添??加到待爬去URL队列中??I??网页存储??————??Yes??C结;)??图2-3通用网络爬虫工作流程图??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用网络爬虫在信息抓取的过程中,一般会维护一个待访问URL队列集合和??一个己访问URL队列集合。待访问的URL队列集合中开始存放的是初始访问链??接URL。通用爬虫的网页搜索过程中,从待访问URL队列集合中获取初始链接??URL,然后向对应服务器发送HTTP请求,服务器将作出HTTP响应,返回其对??应的网页。然后通用网络爬虫解析页面获取链接URL,将未访问过的URL放入到??待访问URL队列集合中,将己访问过的URL放入到己访问URL队列集合中,最??后将网页按照指定的数据存储结构存储到网页数据库中,循环上述操作直到待访??问URL队列集合为空或者达到指定的结束条件。通用网络爬虫的具体体系结构如??图2-4所示:??9??
本文编号:3000208
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
图2-2搜索引擎体系结构框图??Fig?2-2?The?architecture?diagram?of?Search?engine??6??
获取网页信息,实现信息覆盖的最大化。一般情况下,为了提高爬虫的搜索效率,??搜索引擎会采用多个爬虫程序同时进行网页抓取的工作。通用网络爬虫的工作流??程大致如图2-3所示:??(开始)????初始种子URL??????I???URL?网页下载??1?|???|解析网页获取新的链接URL并添??加到待爬去URL队列中??I??网页存储??————??Yes??C结;)??图2-3通用网络爬虫工作流程图??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用网络爬虫在信息抓取的过程中,一般会维护一个待访问URL队列集合和??一个己访问URL队列集合。待访问的URL队列集合中开始存放的是初始访问链??接URL。通用爬虫的网页搜索过程中,从待访问URL队列集合中获取初始链接??URL,然后向对应服务器发送HTTP请求,服务器将作出HTTP响应,返回其对??应的网页。然后通用网络爬虫解析页面获取链接URL,将未访问过的URL放入到??待访问URL队列集合中,将己访问过的URL放入到己访问URL队列集合中,最??后将网页按照指定的数据存储结构存储到网页数据库中,循环上述操作直到待访??问URL队列集合为空或者达到指定的结束条件。通用网络爬虫的具体体系结构如??图2-4所示:??9??
获取网页信息,实现信息覆盖的最大化。一般情况下,为了提高爬虫的搜索效率,??搜索引擎会采用多个爬虫程序同时进行网页抓取的工作。通用网络爬虫的工作流??程大致如图2-3所示:??(开始)????初始种子URL??????I???URL?网页下载??1?|???|解析网页获取新的链接URL并添??加到待爬去URL队列中??I??网页存储??————??Yes??C结;)??图2-3通用网络爬虫工作流程图??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用网络爬虫在信息抓取的过程中,一般会维护一个待访问URL队列集合和??一个己访问URL队列集合。待访问的URL队列集合中开始存放的是初始访问链??接URL。通用爬虫的网页搜索过程中,从待访问URL队列集合中获取初始链接??URL,然后向对应服务器发送HTTP请求,服务器将作出HTTP响应,返回其对??应的网页。然后通用网络爬虫解析页面获取链接URL,将未访问过的URL放入到??待访问URL队列集合中,将己访问过的URL放入到己访问URL队列集合中,最??后将网页按照指定的数据存储结构存储到网页数据库中,循环上述操作直到待访??问URL队列集合为空或者达到指定的结束条件。通用网络爬虫的具体体系结构如??图2-4所示:??9??
本文编号:3000208
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3000208.html