基于网页空间进化算法的暴雨灾害主题爬虫策略
发布时间:2021-06-24 23:40
针对单目标优化算法求解爬虫问题时难以获得最优加权因子和易于陷入局部最优的缺点,将多目标优化算法引入主题爬虫,提出一种基于多目标优化的网页空间进化算法。通过计算测试链接与种子链接库中链接的最短距离,将其与种子链接库中所有链接间的平均距离进行比较来更新种子链接库。针对多目标优化中Pareto最优解的选取问题,给出一种最近最远候选解法。实验结果表明,与宽度优先搜索等算法相比,该算法具有较高的爬准率和稳定性。
【文章来源】:计算机工程. 2019,45(02)北大核心CSCD
【文章页数】:7 页
【部分图文】:
一个包含13个顶点的链接连通示意图
?差计算公式分别为:Rd=1M∑Mp=1R(p)(18)SD=1M∑Mp=1(R(p)-Rd)槡2(19)3.2结果分析为了对比,本文使用相同的种子链接与评价标准,分别测试WSE算法、BFS[6]算法、OPS[7]算法和SA[10]算法。图2所示为4种算法爬取到主题相关网页数量的比较结果。随着爬取网页数量的增加,WSE、OPS和SA3种算法爬取的主题相关网页的数量迅速增加,而BFS算法的增速较为缓慢。当爬取网页的数量大于6000时,WSE算法优于其他3种算法。图24种算法爬取主题相关网页数量比较结果图3给出4种算法的爬准率比较结果。从图3可以看出,WSE算法在整个爬行阶段具有较高的爬准率,当爬取的网页数大于6000时,WSE算法的爬准率高于其他3种算法且逐渐趋于稳定。当爬取的网页数达到15000时,WSE算法的爬准率接近于78%,SA为71%,OPS为49%,BFS仅在20%~30%之间。图34种算法爬准率比较结果上述爬虫结果表明,相比于其他3种算法,WSE算法具有较高的爬准率且不易陷入局部最优。BFS算法由于没有对网页主题相关度进行预判,因此整体的爬准率较低。OPS算法每次都优先下载主题相关度最高的链接,爬准率在搜索初期较高,但随着搜索范围的扩大,由于其贪心策略,OPS算法在后期会陷入局部最优。SA算法其实也是一种贪心算法,但是它在搜索过程中,以一定的概率接受一些主题相关度评分次优的链接,因此有可能会跳出局部最优,而其主要缺点是初始温度及退火速度等参数难以控制。表2给出4种算法爬取主题相关网页的平均相关度。当不同算法爬取网页数量在5000、10000、15000时,WSE算法的平均相关度均超过77%,而BFS算法、O
排廊⊥?呈?康脑黾樱?WSE、OPS和SA3种算法爬取的主题相关网页的数量迅速增加,而BFS算法的增速较为缓慢。当爬取网页的数量大于6000时,WSE算法优于其他3种算法。图24种算法爬取主题相关网页数量比较结果图3给出4种算法的爬准率比较结果。从图3可以看出,WSE算法在整个爬行阶段具有较高的爬准率,当爬取的网页数大于6000时,WSE算法的爬准率高于其他3种算法且逐渐趋于稳定。当爬取的网页数达到15000时,WSE算法的爬准率接近于78%,SA为71%,OPS为49%,BFS仅在20%~30%之间。图34种算法爬准率比较结果上述爬虫结果表明,相比于其他3种算法,WSE算法具有较高的爬准率且不易陷入局部最优。BFS算法由于没有对网页主题相关度进行预判,因此整体的爬准率较低。OPS算法每次都优先下载主题相关度最高的链接,爬准率在搜索初期较高,但随着搜索范围的扩大,由于其贪心策略,OPS算法在后期会陷入局部最优。SA算法其实也是一种贪心算法,但是它在搜索过程中,以一定的概率接受一些主题相关度评分次优的链接,因此有可能会跳出局部最优,而其主要缺点是初始温度及退火速度等参数难以控制。表2给出4种算法爬取主题相关网页的平均相关度。当不同算法爬取网页数量在5000、10000、15000时,WSE算法的平均相关度均超过77%,而BFS算法、OPS算法和SA算法的平均相关度均保持在73%左右。WSE算法比其他3种主题爬虫算法在爬取主题相关网页的平均相关度上明显要高。图4给出了4种算法爬取网页的平均相关度比较。在整个爬虫搜索过程中,WSE算法始终保持较高的相关度,均优于其他算法。当爬取网页数达到15000时,WSE算法爬取网页的平均相关度约为0.71,而SA
【参考文献】:
期刊论文
[1]结合有监督广度优先搜索策略的通用垂直爬虫方法[J]. 高峰,刘震,高辉. 计算机工程. 2018(11)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]基于模拟退火算法的移动通信网络自规划[J]. 张捷,杨希龙. 计算机工程. 2017(05)
[4]基于主题词权重和句子特征的自动文摘[J]. 蒋昌金,彭宏,陈建超,马千里. 华南理工大学学报(自然科学版). 2010(07)
硕士论文
[1]基于广度优先的主题爬虫的设计与实现[D]. 王桦.复旦大学 2011
本文编号:3248044
【文章来源】:计算机工程. 2019,45(02)北大核心CSCD
【文章页数】:7 页
【部分图文】:
一个包含13个顶点的链接连通示意图
?差计算公式分别为:Rd=1M∑Mp=1R(p)(18)SD=1M∑Mp=1(R(p)-Rd)槡2(19)3.2结果分析为了对比,本文使用相同的种子链接与评价标准,分别测试WSE算法、BFS[6]算法、OPS[7]算法和SA[10]算法。图2所示为4种算法爬取到主题相关网页数量的比较结果。随着爬取网页数量的增加,WSE、OPS和SA3种算法爬取的主题相关网页的数量迅速增加,而BFS算法的增速较为缓慢。当爬取网页的数量大于6000时,WSE算法优于其他3种算法。图24种算法爬取主题相关网页数量比较结果图3给出4种算法的爬准率比较结果。从图3可以看出,WSE算法在整个爬行阶段具有较高的爬准率,当爬取的网页数大于6000时,WSE算法的爬准率高于其他3种算法且逐渐趋于稳定。当爬取的网页数达到15000时,WSE算法的爬准率接近于78%,SA为71%,OPS为49%,BFS仅在20%~30%之间。图34种算法爬准率比较结果上述爬虫结果表明,相比于其他3种算法,WSE算法具有较高的爬准率且不易陷入局部最优。BFS算法由于没有对网页主题相关度进行预判,因此整体的爬准率较低。OPS算法每次都优先下载主题相关度最高的链接,爬准率在搜索初期较高,但随着搜索范围的扩大,由于其贪心策略,OPS算法在后期会陷入局部最优。SA算法其实也是一种贪心算法,但是它在搜索过程中,以一定的概率接受一些主题相关度评分次优的链接,因此有可能会跳出局部最优,而其主要缺点是初始温度及退火速度等参数难以控制。表2给出4种算法爬取主题相关网页的平均相关度。当不同算法爬取网页数量在5000、10000、15000时,WSE算法的平均相关度均超过77%,而BFS算法、O
排廊⊥?呈?康脑黾樱?WSE、OPS和SA3种算法爬取的主题相关网页的数量迅速增加,而BFS算法的增速较为缓慢。当爬取网页的数量大于6000时,WSE算法优于其他3种算法。图24种算法爬取主题相关网页数量比较结果图3给出4种算法的爬准率比较结果。从图3可以看出,WSE算法在整个爬行阶段具有较高的爬准率,当爬取的网页数大于6000时,WSE算法的爬准率高于其他3种算法且逐渐趋于稳定。当爬取的网页数达到15000时,WSE算法的爬准率接近于78%,SA为71%,OPS为49%,BFS仅在20%~30%之间。图34种算法爬准率比较结果上述爬虫结果表明,相比于其他3种算法,WSE算法具有较高的爬准率且不易陷入局部最优。BFS算法由于没有对网页主题相关度进行预判,因此整体的爬准率较低。OPS算法每次都优先下载主题相关度最高的链接,爬准率在搜索初期较高,但随着搜索范围的扩大,由于其贪心策略,OPS算法在后期会陷入局部最优。SA算法其实也是一种贪心算法,但是它在搜索过程中,以一定的概率接受一些主题相关度评分次优的链接,因此有可能会跳出局部最优,而其主要缺点是初始温度及退火速度等参数难以控制。表2给出4种算法爬取主题相关网页的平均相关度。当不同算法爬取网页数量在5000、10000、15000时,WSE算法的平均相关度均超过77%,而BFS算法、OPS算法和SA算法的平均相关度均保持在73%左右。WSE算法比其他3种主题爬虫算法在爬取主题相关网页的平均相关度上明显要高。图4给出了4种算法爬取网页的平均相关度比较。在整个爬虫搜索过程中,WSE算法始终保持较高的相关度,均优于其他算法。当爬取网页数达到15000时,WSE算法爬取网页的平均相关度约为0.71,而SA
【参考文献】:
期刊论文
[1]结合有监督广度优先搜索策略的通用垂直爬虫方法[J]. 高峰,刘震,高辉. 计算机工程. 2018(11)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]基于模拟退火算法的移动通信网络自规划[J]. 张捷,杨希龙. 计算机工程. 2017(05)
[4]基于主题词权重和句子特征的自动文摘[J]. 蒋昌金,彭宏,陈建超,马千里. 华南理工大学学报(自然科学版). 2010(07)
硕士论文
[1]基于广度优先的主题爬虫的设计与实现[D]. 王桦.复旦大学 2011
本文编号:3248044
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3248044.html