当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于改进shark-search算法的主题爬虫的研究与实现

发布时间:2017-04-17 02:11

  本文关键词:基于改进shark-search算法的主题爬虫的研究与实现,,由笔耕文化传播整理发布。


【摘要】:如何从大量的互联网信息中获得所需的数据是从互联网诞生之日起就存在的重要课题。面向主题网络爬虫是解决这一问题的方法之一,其主要方法有基于文本内容启发式方法、基于web链接结构评价方法、机器学习分类器方法等。Shark-Search算法属于基于文本内容的启发式算法,因为其算法实现简单、效果明显和可扩展性好等优点而得到广泛应用,但它存在“近视问题”和“隧道问题”,所以查全率不高。针对Shark-Search算法存在的不足,本文通过主题词扩展和URL调度策略实现了一个改进的Shark-Search爬虫——NSKD (New Shark-Search with Keywords Diffusion)爬虫。对Shark-Search的两个方面进行改进:(1)主题词扩展,本文采用《哈工大同义词词林扩展版》对主题词进行扩展,并改进其相近度计算算法。在NSKD爬虫的主题相近度计算中,通过改进后的同义词词相近度算法得到待分析网页每个带权关键词到预设主题的距离,从而获得主题距离矩阵,将距离矩阵影射到比较向量中,将比较向量与主题向量的余弦距离作为网页内容与预设主题的相近度。NSKD爬虫改变Shark-Search的文本主题相近度算法关键词简单匹配的方式,扩展了原本狭窄的文本特征向量对比面,使得与主题内容高相关但关键词匹配度不高的网页得到了较好的评分。(2)本文实现一个基于层次统计的URL调度算法,通过比较当前处理链接深度与队列内待处理链接平均深度,将过度聚集的处理范围分散开,改善主题爬虫的“隧道问题”。我们通过两组实验验证NSKD爬虫系统:(1)利用搜狗实验室(http://www.sogou.com/labs/dl/c.html)发布的新闻分类缩减版(SogouC.Reduce.20061127)作为实验数据,测试主题词扩散算法的有效性,结果显示算法能明确区分主题文本和非主题文本。(2)针对知名论坛龙腾网翻译论坛(http://www.ltaaa.com/bbs)进行爬行,测试NSKD爬虫系统的查全率与查准率,结果表明在保证查准率的情况下,查全率提升了32%以上。
【关键词】:网络爬虫 主题相近度 文本挖掘 搜索引擎 同义词词林
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 绪论11-17
  • 1.1 研究背景及意义11-12
  • 1.2 网络爬虫的研究现状12-14
  • 1.3 论文的主要工作14-15
  • 1.4 论文的结构安排15-17
  • 第二章 面向主题网络爬虫的相关理论与技术17-25
  • 2.1 文本信息处理17-19
  • 2.1.1 特征选取17-18
  • 2.1.2 文本相近度计算18-19
  • 2.2 链接去重技术19-20
  • 2.3 同义词词林20-22
  • 2.4 页面分析22-23
  • 2.5 评价方法23
  • 2.6 本章小结23-25
  • 第三章 基于改进shark-search算法的主题爬虫25-33
  • 3.1 Shark-Search算法分析25-28
  • 3.1.1 文本主题相关度计算简单26-27
  • 3.1.2 隧道问题27-28
  • 3.2 改进策略28-32
  • 3.2.1 针对Shark-Search算法的改进28-31
  • 3.2.2 基于层次统计的URL调度算法31-32
  • 3.3 本章小结32-33
  • 第四章 系统实现与结果评价33-46
  • 4.1 系统设计33-42
  • 4.1.1 框架结构设计33-36
  • 4.1.2 关键子模块设计36-41
  • 4.1.3 系统运行流程41-42
  • 4.2 实验42-43
  • 4.2.1 基于同义词词林的主题词扩展算法实验42-43
  • 4.2.2 NSKD爬虫实验43
  • 4.3 结果评价43-45
  • 4.4 本章小结45-46
  • 第五章 总结与展望46-48
  • 5.1 本文工作总结46
  • 5.2 未来工作展望46-48
  • 参考文献48-51
  • 致谢51

【参考文献】

中国期刊全文数据库 前6条

1 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期

2 张琪玉;;检索标识的专指度[J];江西图书馆学刊;2006年02期

3 叶强;超文本传输协议——HTTP/1.0[J];科技情报开发与经济;2004年08期

4 苏祺;项锟;孙斌;;基于链接聚类的Shark-Search算法[J];山东大学学报(理学版);2006年03期

5 贺晟;程家兴;蔡欣宝;;基于模拟退火算法的主题爬虫[J];计算机技术与发展;2009年12期

6 杜冬梅;许彩欣;苏健;;浅谈正则表达式在web系统中的应用[J];计算机系统应用;2007年08期

中国硕士学位论文全文数据库 前2条

1 李正文;基于SVM分类算法的主题爬虫研究[D];哈尔滨工程大学;2011年

2 王桂梅;主题网络爬虫关键技术研究[D];哈尔滨工业大学;2009年


  本文关键词:基于改进shark-search算法的主题爬虫的研究与实现,由笔耕文化传播整理发布。



本文编号:312183

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/312183.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93d6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com