当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向主题的爬行搜索策略研究与实现

发布时间:2019-09-11 07:41
【摘要】:随着Web上的信息越来越多,传统的通用搜索引擎技术出现了覆盖率低,资源占用多,更新时间长,用户对搜索结果的满意度低等一系列问题。为了克服通用搜索引擎的不足,满足特定用户针对特定领域的查询需求,建立面向特定领域的主题搜索引擎,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务已经成为搜索引擎新的发展方向。 主题爬虫是在传统的通用爬虫爬行整个Web所有网页的基础上,综合使用机器学习中智能学习方法,控制爬虫爬行过程的抓取方向,使爬行程序尽可能多的抓取与指定主题有关的Web网页。 目前对于主题爬行的研究,主要集中在两个热点:一是Web文本自动分类,就是对于一个网页,如何判断是否是主题相关的;二是采用什么样的爬行策略,能够尽可能多地下载相关网页,避免与主题无关的网页,提高主题资源的覆盖度。 本文对主题爬行的关键技术——网络爬虫的搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,提出了一个面向主题的网络爬虫架构,对架构的主要模块进行了详细介绍。在开源WebLech的基础上进行改进,实现了一个主题爬虫,基本思想是由语料训练得到一个朴素贝叶斯分类器,将爬虫抓取到的网页在保存到本地之前进行主题相关性分析,若抓取的网页属于本主题,则保留本网页为后面建立索引做准备;若不是主题相关的则抛弃,避免占用更多空间。该方法计算简单,提高了爬行的速度和召回率。 本文讨论了基于Weblech和朴素贝叶斯分类器的主题爬虫实现过程中用到的各项技术,主要内容包括: (1)提出了一种新的搜索策略,主要是将网页分为Hub型网页和内容型网页,如果网页是Hub类型的网页则不进行主题相关性计算,使爬虫的抓取过程更高效,并且能有效解决主题爬虫的隧道现象,提高了主题爬虫的搜集覆盖率和相关度; (2)研究了朴素贝叶斯分类算法和向量空间模型原理,通过LDA主题模型进行特征加权,提高了朴素贝叶斯对网页进行分类的精度和效率; (3)提出了一个主题爬行体系架构,介绍了体系架构的各个功能模块和具体实现技术。设计和实现了一个主题爬虫系统,利用该系统对本文提出的主题爬虫体系架构进行了验证,数据显示该架构效果良好。
【学位授予单位】:陕西师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期

2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期

3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期

4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期

5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期

6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期

7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期

8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期

9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期

10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期

相关会议论文 前10条

1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

4 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

6 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年

7 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

9 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

10 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年

相关重要报纸文章 前10条

1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年

2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年

3 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年

4 刘成富;编辑网页有妙法[N];计算机世界;2004年

5 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年

6 邹本X;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年

7 ;网站安全必不可少的保护神[N];中国计算机报;2005年

8 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年

9 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年

10 姜元学;初哥上网三注意[N];中国电脑教育报;2002年

相关博士学位论文 前10条

1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年

3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年

6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

7 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年

8 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年

9 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年

10 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年

2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年

3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年

4 张宁;面向农业信息的主题爬虫的研究与设计[D];北京邮电大学;2010年

5 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年

6 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年

7 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年

8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年

9 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年

10 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年



本文编号:2534285

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2534285.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1db66***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com