主题爬虫算法的研究与实现
发布时间:2020-03-13 07:25
【摘要】:随着互联网的快速发展,上网人数的不断增长,网络上的信息量也急速增加。所有这些都给搜索引擎提出了挑战,传统的搜索引擎已经不可能提供给用户既全面又具有专业深度的服务了,垂直搜索引擎应运而生。主题网络爬虫作为垂直搜索引擎的抓取模块,负责搜集网上的网页信息。主题爬虫的好坏直接影响着搜索引擎的服务质量,故作为搜索引擎的重要组成部分,尤其值得去研究和改进。 近年来,对主题爬虫的研究主要集中于两个方面——主题爬虫搜索策略和主题相关性算法。本文即针对这两方面展开了讨论,所做的主要工作和研究成果包括: (1)文章对主题爬虫相关技术进行了研究。简要描述了互联网上主题页面的分布特征、URL、正则表达式的应用、网页获取、网页内容分析等方面的理论,为建立主题爬虫垫定了基础。 (2)研究并改进了主题相关度判定算法。在传统向量空间模型的基础上,根据网页的结构特征,对特征项关键词进行加权。根据主题词的语义多样性,引入语义相似矩阵对网页特征项进行相似性转换。提高了主题爬虫对相关网页的识别度和下载率,避免无关网页的下载。 (3)将全局搜索突出的遗传算法和局部搜索效果较好的模拟退火算法引入到主题爬虫的搜索策略中,并结合了改进的VSM相关度算法及URL链接的重要度共同计算待抓取URL的优先级别,,从而确定爬虫的抓取方向。 (4)实现了一个行业定制的主题爬虫——澳洲建筑商服务系统中的爬虫模块。详细地从技术方面介绍了行业定制爬虫的特点。 (5)在通用爬虫框架Heritrix的帮助下,对改进的VSM算法与传统的VSM算法进行了相关性判定的对比;分别用HITS,最佳优先算法与基于模拟退火遗传算法的主题搜索策略进行主题搜索,由实验结果可得基于模拟退火遗传算法的主题搜索策略比基于链接的HITS算法,基于内容的最佳优先算法在某种程度上具有一定的优势。
【图文】:
图 5 . 1 澳 洲建 筑 服 务商 系统 网站 截图 5. 1 .3 澳 洲建 筑 商服 务系 统 中的 主 题爬 虫 的实 现 图 5 . 2 澳 洲建 筑服 务 商 系统 中爬 虫的 结构 图网 页抓 取爬 虫 初 始 化 模 块模 块链 接分 析模 块网 页库 内 容提 取模 块待 访 问U RL 主 题 内容重 复 U R L检 测互 联网
算 法 5 -1 ge t_ li n k () 输 入 :$ li n k, $ i输 出 : p a ge s ’ in fo r m a ti o n s a n d s a ve p a ge // i p , p a ge r e q u es te d , c o n te nt r e c e ic e d , li n ks fo u n d , re s u lt B e gi n (1 ) fo r e a c h $ i // $ i 是 基于 u rl 规 则 的 抽象 值, 用来 分 辨 同 类 的 u rl (2 ) m a ke s u r e th e $ li n k ;(3 ) r e c e iv e P a ge ($ li n k) ; // 从 网 络 上下 载对 应的 网页 (4 ) if (p a ge _ d a ta [" r e c e iv e d " ] == fa ls e ) p ri n t " \n re c e iv e p a ge fa il e d "; (5 ) e ls e p ri n t " p a ge _ d a ta [" u rl " ] ,p a ge _ d a ta [" b yt e s _ re c e iv e d "] , p a ge _ d a ta [ "l i n ks _ f o u n d "] "; (6 ) s a ve p a ge ;(7 ) e n d ;下图 5 .3 为 抓取 页 面的 过 程, 并 显示 出 i p 地 址, p a g e re q u e s t ed 所抓 取网 页 的 UR n t en t re c ei ce d 网 页内 容 大 小, 里 面 所包 含 的链 接 个 数 t o t al l i nk s fo u nd 和 是否 下 载成 状 态 re s ul t 。
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
本文编号:2586720
【图文】:
图 5 . 1 澳 洲建 筑 服 务商 系统 网站 截图 5. 1 .3 澳 洲建 筑 商服 务系 统 中的 主 题爬 虫 的实 现 图 5 . 2 澳 洲建 筑服 务 商 系统 中爬 虫的 结构 图网 页抓 取爬 虫 初 始 化 模 块模 块链 接分 析模 块网 页库 内 容提 取模 块待 访 问U RL 主 题 内容重 复 U R L检 测互 联网
算 法 5 -1 ge t_ li n k () 输 入 :$ li n k, $ i输 出 : p a ge s ’ in fo r m a ti o n s a n d s a ve p a ge // i p , p a ge r e q u es te d , c o n te nt r e c e ic e d , li n ks fo u n d , re s u lt B e gi n (1 ) fo r e a c h $ i // $ i 是 基于 u rl 规 则 的 抽象 值, 用来 分 辨 同 类 的 u rl (2 ) m a ke s u r e th e $ li n k ;(3 ) r e c e iv e P a ge ($ li n k) ; // 从 网 络 上下 载对 应的 网页 (4 ) if (p a ge _ d a ta [" r e c e iv e d " ] == fa ls e ) p ri n t " \n re c e iv e p a ge fa il e d "; (5 ) e ls e p ri n t " p a ge _ d a ta [" u rl " ] ,p a ge _ d a ta [" b yt e s _ re c e iv e d "] , p a ge _ d a ta [ "l i n ks _ f o u n d "] "; (6 ) s a ve p a ge ;(7 ) e n d ;下图 5 .3 为 抓取 页 面的 过 程, 并 显示 出 i p 地 址, p a g e re q u e s t ed 所抓 取网 页 的 UR n t en t re c ei ce d 网 页内 容 大 小, 里 面 所包 含 的链 接 个 数 t o t al l i nk s fo u nd 和 是否 下 载成 状 态 re s ul t 。
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
3 柯品惠;郑秋鸿;;Hash函数研究综述[J];福建电脑;2008年12期
4 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
5 王海鹰;魏颖;;基于蚁群算法的多目标网页综合评价策略[J];计算机工程与应用;2011年04期
6 张燕平;刘超;曲永花;;WCBVSM与SACA结合的文本分类模型[J];计算机工程与应用;2012年11期
7 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
8 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
9 郭进;统计语言模型及汉语音字转换的一些新结果[J];中文信息学报;1993年01期
10 杜娟娟;郑丽英;;基于模拟退火遗传算法的主题爬虫搜索策略研究[J];科技风;2012年16期
本文编号:2586720
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2586720.html