基于改进遗传算法的主题爬虫设计与实现
发布时间:2020-06-16 10:45
【摘要】:随着互联网的快速发展,使得如何从海量的网络资源中快速准确地获取用户所需的信息成为一个关键问题。通用搜索引擎通过网页采集和索引为用户提供检索服务,但这种基于关键词匹配的检索方式,往往忽略用户真实查询意图的识别和匹配。垂直搜索引擎则通过缩小采集范围为特定领域和背景的用户提供专业化、定制化信息检索服务,是当前搜索领域研究的热点。主题爬虫是垂直搜索引擎的网页采集模块,在搜索路径上只保留与主题相关的网页,本文主要围绕主题爬虫的网页分析方法和搜索策略,探讨如何提高爬虫的指标性能。针对常用的基于最佳优先策略的主题爬虫易陷入局部寻优的缺陷,本文提出了一种基于改进遗传算法的主题爬虫,适应度函数用于衡量网页的综合价值,综合考虑网页主题相关度和主题重要性,采用向量空间模型计算网页文本内容与主题向量之间的相关性,利用改进PageRank算法衡量网页在互联网链接结构中的主题重要性,选择操作筛选出适应度较高的网页,交叉操作根据子链接主题重要性进行降序,变异操作则利用搜索引擎检索组合关键词。最后实现了一个基于改进遗传算法的主题爬虫,并通过实验验证,相比于已有遗传算法,基于改进遗传算法的搜索策略能在一定程度上提高主题爬虫的查准和查全率,扩大爬虫的搜索范围,更符合用户的主题检索需求。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3;TP18
【图文】:
量网页中寻找到目标信息无异于大海捞针,因此特别需要一种工具对互联网网页进行整理便于用户查询,正是有这种应用需求,1990 年搜索引擎的始祖 Archie 应运而生,它是第一个自动对 FTP 文件进行索引的系统,能够自动采集文件名、建立索引、提供检索。虽然 Archie 不是真正的搜索引擎,但之后的 Yahoo、Goog都是在其基础上进行优化。搜索引擎原理如图 1-1 所示。时至今日,搜索引擎得
用户接口;用户输入:供用户查询输入,并将返回结果通过浏览器技术呈现给用户。搜索引擎按照其应用环境,可大致分为目录索引、通用搜索引擎、垂直搜索引擎、元搜索引擎等。1.3.1 目录索引目录索引是一种早期的搜索引擎,通过采集互联网网页资源,分析网页内容,确定该网页所属分类,将网页分配到主页目录所属不同层次的不同分类。目录索引一般没有输入栏,用户需依据目录标签,一层一层点击,直到最后一层,查找目标网页。目录索引类似于数据结构里的多路查找树,所有的网页都存储在叶子节点里,而其他节点类似于关键词或标签,指引用户查找目标节点。目录索引由于需要对所有的网页进行分类,且用户查找需要手动点击标签,效率比较低下,适用于网页数目比较少的情况下,一般用于企业或学校的内部网,这些网站的特点是包含的网页大多与本单位相关,供内部人士使用,且分类标签比较清晰,便于查询和管理。比较典型的目录索引有 Yahoo、上海交通大学等,如图 1-2 所示。
本文编号:2715946
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3;TP18
【图文】:
量网页中寻找到目标信息无异于大海捞针,因此特别需要一种工具对互联网网页进行整理便于用户查询,正是有这种应用需求,1990 年搜索引擎的始祖 Archie 应运而生,它是第一个自动对 FTP 文件进行索引的系统,能够自动采集文件名、建立索引、提供检索。虽然 Archie 不是真正的搜索引擎,但之后的 Yahoo、Goog都是在其基础上进行优化。搜索引擎原理如图 1-1 所示。时至今日,搜索引擎得
用户接口;用户输入:供用户查询输入,并将返回结果通过浏览器技术呈现给用户。搜索引擎按照其应用环境,可大致分为目录索引、通用搜索引擎、垂直搜索引擎、元搜索引擎等。1.3.1 目录索引目录索引是一种早期的搜索引擎,通过采集互联网网页资源,分析网页内容,确定该网页所属分类,将网页分配到主页目录所属不同层次的不同分类。目录索引一般没有输入栏,用户需依据目录标签,一层一层点击,直到最后一层,查找目标网页。目录索引类似于数据结构里的多路查找树,所有的网页都存储在叶子节点里,而其他节点类似于关键词或标签,指引用户查找目标节点。目录索引由于需要对所有的网页进行分类,且用户查找需要手动点击标签,效率比较低下,适用于网页数目比较少的情况下,一般用于企业或学校的内部网,这些网站的特点是包含的网页大多与本单位相关,供内部人士使用,且分类标签比较清晰,便于查询和管理。比较典型的目录索引有 Yahoo、上海交通大学等,如图 1-2 所示。
【参考文献】
相关期刊论文 前6条
1 丁发梅;;一种改进Best-First算法的主题爬虫搜索算法[J];信息通信;2015年04期
2 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期
3 贺晟;程家兴;蔡欣宝;;基于模拟退火算法的主题爬虫[J];计算机技术与发展;2009年12期
4 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
5 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
6 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
相关博士学位论文 前1条
1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
本文编号:2715946
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2715946.html