主题爬虫算法的研究与实现

发布时间：2020-03-13 07:25

【摘要】：随着互联网的快速发展，上网人数的不断增长，网络上的信息量也急速增加。所有这些都给搜索引擎提出了挑战，传统的搜索引擎已经不可能提供给用户既全面又具有专业深度的服务了，垂直搜索引擎应运而生。主题网络爬虫作为垂直搜索引擎的抓取模块，负责搜集网上的网页信息。主题爬虫的好坏直接影响着搜索引擎的服务质量，故作为搜索引擎的重要组成部分，尤其值得去研究和改进。近年来，对主题爬虫的研究主要集中于两个方面——主题爬虫搜索策略和主题相关性算法。本文即针对这两方面展开了讨论，所做的主要工作和研究成果包括： (1)文章对主题爬虫相关技术进行了研究。简要描述了互联网上主题页面的分布特征、URL、正则表达式的应用、网页获取、网页内容分析等方面的理论，为建立主题爬虫垫定了基础。 (2)研究并改进了主题相关度判定算法。在传统向量空间模型的基础上，根据网页的结构特征，对特征项关键词进行加权。根据主题词的语义多样性，引入语义相似矩阵对网页特征项进行相似性转换。提高了主题爬虫对相关网页的识别度和下载率，避免无关网页的下载。 (3)将全局搜索突出的遗传算法和局部搜索效果较好的模拟退火算法引入到主题爬虫的搜索策略中，并结合了改进的VSM相关度算法及URL链接的重要度共同计算待抓取URL的优先级别，，从而确定爬虫的抓取方向。 (4)实现了一个行业定制的主题爬虫——澳洲建筑商服务系统中的爬虫模块。详细地从技术方面介绍了行业定制爬虫的特点。 (5)在通用爬虫框架Heritrix的帮助下，对改进的VSM算法与传统的VSM算法进行了相关性判定的对比；分别用HITS，最佳优先算法与基于模拟退火遗传算法的主题搜索策略进行主题搜索，由实验结果可得基于模拟退火遗传算法的主题搜索策略比基于链接的HITS算法，基于内容的最佳优先算法在某种程度上具有一定的优势。
【图文】：

建筑服务,商系,网站,澳洲

图 5 . 1 澳洲建筑服务商系统网站截图 5. 1 .3 澳洲建筑商服务系统中的主题爬虫的实现图 5 . 2 澳洲建筑服务商系统中爬虫的结构图网页抓取爬虫初始化模块模块链接分析模块网页库内容提取模块待访问U RL 主题内容重复 U R L检测互联网

过程图,网页,过程

算法 5 -1 ge t_ li n k () 输入：$ li n k, $ i输出： p a ge s ’ in fo r m a ti o n s a n d s a ve p a ge // i p , p a ge r e q u es te d , c o n te nt r e c e ic e d , li n ks fo u n d , re s u lt B e gi n (1 ) fo r e a c h $ i // $ i 是基于 u rl 规则的抽象值，用来分辨同类的 u rl (2 ) m a ke s u r e th e $ li n k ;(3 ) r e c e iv e P a ge ($ li n k) ; // 从网络上下载对应的网页 (4 ) if (p a ge _ d a ta [" r e c e iv e d " ] == fa ls e ) p ri n t " \n re c e iv e p a ge fa il e d "; (5 ) e ls e p ri n t " p a ge _ d a ta [" u rl " ] ,p a ge _ d a ta [" b yt e s _ re c e iv e d "] , p a ge _ d a ta [ "l i n ks _ f o u n d "] "; (6 ) s a ve p a ge ;(7 ) e n d ;下图 5 .3 为抓取页面的过程，并显示出 i p 地址， p a g e re q u e s t ed 所抓取网页的 UR n t en t re c ei ce d 网页内容大小，里面所包含的链接个数 t o t al l i nk s fo u nd 和是否下载成状态 re s ul t 。
【学位授予单位】：兰州交通大学
【学位级别】：硕士
【学位授予年份】：2013
【分类号】：TP391.3

【参考文献】