当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于改进VIPS算法和改进灰狼优化算法的主题爬虫

发布时间:2020-04-25 15:21
【摘要】:互联网的飞速发展使得网页资源呈现爆炸式增长,准确地获取用户所需的网页是现在搜索引擎需要解决的一个热点问题。在这种情况下,针对特定主题的垂直搜索引擎由此诞生。它的核心就是主题爬虫,本文通过研究主题爬虫的相关技术,引入网页分块的概念,结合主题爬虫的链接评价方法,提出一种更为有效的主题爬虫,论文的主要工作如下:(1)提出一种新的网页分块算法:在现有的多数基于“DIV+CSS”的页面设计结构下,将VIPS算法的分块规则进一步优化,根据主题爬虫的需要,提取出内容块和链接块,过滤掉网页中的无关链接与垃圾信息。然后从内容块中提取出文本信息的特征关键词,利用改进的TF-IDF加权算法,对特征关键词加权后用向量空间模型计算主题相关性。基于网页分块的内容分析方法为后续的链接评价提供了更高质量的网页URL,同时降低了无关内容的影响。(2)主题爬虫必须计算网页链接的优先级来确定主题爬虫的爬取方向。本文利用群体智能算法的基本思想,引入灰狼优化算法,通过加入动态权重的概念以及改变收敛因子的计算方法,将改进的灰狼优化算法应用于主题爬虫中,链接优先级的准确度更高,同时避免了主题爬虫陷入“局部最优”的问题,提高了全局搜索能力,并能抛弃掉无关的链接,提高了返回网页的质量。实验证明,改进的灰狼优化算法能够显著提高爬虫的准确率。(3)将两种方法结合设计主题爬虫系统,经过前期的数据准备与参数设置后,将本文使用的主题爬虫系统与基于PageRank算法的主题爬虫系统、使用Shark-Search算法构建的主题爬虫系统进行比较。对三种主题爬虫的覆盖率,准确率和信息量总和进行详细的实验分析对比,结果表明,本文提出的主题爬虫系统具有更好的性能。
【图文】:

体系结构图,体系结构,网页,队列


华东师范大学硕士学位论文务器端进行连接,得到相关网页信息,并且将这些网页链接放入下载L 队列中。同时将这些网页中的链接解析出来,,得到一批新的 URL,先接进行去重,过滤后的 URL 就可以放入待下载队列中。已经解析完毕可以根据相关规则存入数据库中[19]。将上述操作重复执行,一直到满足或者设定的爬虫程序停止为止。通用爬虫的体系结构可以由图 2-1 体现。

体系结构图,主题,体系结构,网页


图 2- 2 主题爬虫体系结构在主题爬虫体系结构中,多了两个模块。一个是主题相关性计算模块,计算网页内容与主题的相关度,在阈值范围内的网页保留,提取出网页中的链接进行链接相关性计算,并将网页内容保存进数据库中;在阈值范围外的网页则丢弃[25]。另一个则是链接相关性计算模块,确定访问的优先级,按照优先级高低将链接放入待下载 URL 队列中进行新一轮的爬取过程,能够有效地阻止无关链接的访问,将搜索时间减小,爬虫的效率得到了提高。2.1.2.2 爬行策略最佳优先搜索策略[26]是主题爬虫爬行的核心思想。主题爬虫按照网页的重要性高低依次进行访问,然后根据一定的规则计算网页中链接的优先级,根据优先级顺序将链接依次放入待下载 URL 队列中,不断重复这个过程,一直到待下载
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18;TP391.1

【相似文献】

相关硕士学位论文 前2条

1 萧婧婕;基于改进VIPS算法和改进灰狼优化算法的主题爬虫[D];华东师范大学;2019年

2 张昕;异构就业数据集成服务的设计与实现[D];北京邮电大学;2015年



本文编号:2640386

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2640386.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户95b39***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com