垂直搜索引擎中主题网络爬虫算法的设计与研究
本文关键词:垂直搜索引擎中主题网络爬虫算法的设计与研究
更多相关文章: 主题搜索 HITS 朴素贝叶斯 混合爬行策略
【摘要】:随着互联网的快速发展,近几年,传统的通用搜索引擎已不能满足人们对于专业化、个性化的信息需求,因此建立面向特定领域的垂直搜索引擎迫在眉睫。主题网络爬虫在主题搜索引擎中起着举足轻重的作用,它设计的好坏直接影响着搜索引擎的服务质量。传统的主题网络爬虫主要通过分析网页的全部内容来分析候选URL与主题的相关性,但现今的网页包含的主题越来越多,这种分析方式可能会由于网页中存在噪音而影响候选URL与主题相关性的判定。近年来对主题爬虫的研究主要集中于两个方面:主题相关性判定和主题爬虫搜索策略。本文针对传统的主题网络爬虫的不足提出基于一种混合爬行的搜索策略。主要的研究工作包括:(1)文章在研究主题爬虫相关技术的基础上,对现有的研究成果分别做了阐述,这为文章提出的新的爬虫策略奠定了理论基础。(2)把树的层次型结构应用到Bloom Filter去重过程,提出一种基于传统Bloom Filter的多层Bloom Filter(MLBF)对抓取的URL去重,每层Bloom Filter由k个独立的哈希函数和m位位数组组成,将URL看成是由”/”分割之后组成的集合,从而将URL的去重问题转换成判定树的路径问题。实验结果分析表明:改进后的多层Bloom Filter具有更小的误判率,提升了爬行效率。(3)文章吸取了已有成果的研究精华,充分结合网页内容评价和网页链接评价两个维度提出基于内容和链接评价的一种混合爬行策略。在内容评价策略上,构建以网页内容和锚文本为输入的朴素贝叶斯分类器分析候选URL与主题的相关性,在链接评价策略上,采用高效的HITS算法来获得Authority和Hub网页。将整个爬行策略的周期合理分为两步,提高了网页与主题的相关性。(4)在预测候选URL与主题相关度方面,采用典型的杜威十进制分类法和链接结构分析法等差异化的方法预测URL与主题的相关性,综合考虑了锚文本、锚文本附近的信息、反向网页、反向链接与主题的相关,避免了“主题漂移”现象。(5)对爬虫效果采用差准率和模拟查全率来进行评估,通过比较本文提出的爬行策略和其他算法在抓取质量方面的优劣,分析实验数据,得出结论:混合爬虫策略在抓取网页质量上具有明显的优越性。
【关键词】:主题搜索 HITS 朴素贝叶斯 混合爬行策略
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 绪论13-18
- 1.1 研究背景和意义13-14
- 1.2 国内外研究现状14-16
- 1.2.1 通用网络爬虫的研究现状14-15
- 1.2.2 主题网络爬虫的研究现状15-16
- 1.3 研究内容及组织结构及创新点16-18
- 第二章 搜索引擎中的网络爬虫18-28
- 2.1 搜索引擎简介18-21
- 2.1.1 搜索引擎的发展史18
- 2.1.2 搜索引擎的类别18-19
- 2.1.3 搜索引擎的工作原理19-21
- 2.2 网络爬虫的体系结构和搜索策略21-26
- 2.2.1 通用网络爬虫的体系结构21-23
- 2.2.2 通用网络爬虫的搜索策略23-24
- 2.2.3 主题网络爬虫的体系结构24-26
- 2.2.4 主题网络爬虫的搜索策略26
- 2.3 通用网络爬虫与主题网络爬虫的区别26-27
- 2.4 本章小结27-28
- 第三章 主题网络爬虫的关键技术28-49
- 3.1 网页内容处理28-33
- 3.1.1 HTML网页结构28-29
- 3.1.2 网页内容提取29-31
- 3.1.3 文本分词31-32
- 3.1.4 特征向量项的权重计算32-33
- 3.2 页面消重技术33-40
- 3.2.1 URL去重33-36
- 3.2.2 改进的URL去重算法36-39
- 3.2.3 内容去重39-40
- 3.3 主题相关性判别算法40-44
- 3.3.1 向量空间模型判定算法40-41
- 3.3.2 向量空间模型算法的优点和缺点41-42
- 3.3.3 朴素贝叶斯分类算法42-44
- 3.3.4 朴素贝叶斯分类算法的优缺点44
- 3.4 基于链接评价的搜索算法44-48
- 3.4.1 PageRank算法44-46
- 3.4.2 HITS算法46-47
- 3.4.3 PageRank和HITS的比较47-48
- 3.5 本章小结48-49
- 第四章 基于一种混合爬行算法的研究49-61
- 4.1 杜威十进分类法49-50
- 4.2 主题候选链接特征文本的提取50-51
- 4.3 构建朴素贝叶斯文本分类器51-53
- 4.4 首次抓取算法53-55
- 4.5 二次抓取算法55-60
- 4.5.1 主题相关预测算法的研究55-58
- 4.5.2 爬虫算法的研究58-60
- 4.6 本章小结60-61
- 第五章 实验结果与分析61-66
- 5.1 评价方法61
- 5.2 实验环境61-62
- 5.3 实验分析62-65
- 5.4 本章小结65-66
- 总结与展望66-68
- 参考文献68-72
- 攻读硕士期间发表的学术论文和科研成果72-74
- 致谢74
【相似文献】
中国期刊全文数据库 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年
,本文编号:834940
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/834940.html