【摘要】:随着互联网技术的不断发展,浩瀚的网络信息资源给人类的生活造成了深刻的影响。于是如何合理利用,并且怎么去完善它们成为了现在的主题关键,因为人们更加注重于如何从互联网上搜索到自己想要的信息,这就需要搜索引擎的支持。然而,正是由于互联网上信息成千上万,信息过于膨胀,才‘使得如何通过网页便捷地查询到目标信息变得很重要。以往的通用搜索引擎很大程度上帮助人们在互联网查找信息更加方便,然而,慢慢地也暴露了很多弊端,大部分情况下不能提供个性化专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域和人群的要求,更适应于社会形势。主题网络爬虫由此作为一种工具,在主题搜索引擎领域,发挥着越来越重要的作用,正因如此,以主题网络爬虫为核心的主题搜索引擎成为研究的重中之重,并且对于主题网络爬虫的研究,也逐渐成为目前信息挖掘领域的热点。 本文就是通过自己对现有搜索引擎发展的基本了解,针对性地开展对主题网络爬虫进行的研究,本文主要通过六个章节来分析主题爬虫的设计和实现。主要研究内容如下: 1.主要阐述了课题研究的背景,并对国内外的对主题爬虫的研究现状以及课题的研究意义进行了综述; 2.通过介绍搜索引擎的发展,阐述了搜索引擎的基本原理并由此引入了对于网络爬虫的相关介绍,随后还进行了两者之间的对比,重点研究了两种爬虫的体系结构和基本工作原理; 3.对主题爬虫领域关键技术进行了详细介绍和对比,同时对于网络中普遍存在的隧道现象也进行了针对性的算法改进并进行了编码实现,最后还对于不同的算法也说明了其相关度计算方式; 4.探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词、管理等模块等; 5.重点对主题爬虫系统的实施办法进行了研究和详细设计,利用该系统主要的数据分析方式,集合实验数据得出分析结果,证明了前述章节中各个理论的合理性与有效性。 6.最后对前面章节内容进行的总结与归纳,并提出本文的创新点与局限性。 实验表明:对于本人提出的详细改进策略应用到主题爬虫实际工作中具有明显的优越性,不仅保证了较高的收获比,而且极大减少了存储空间和爬取时间。保证了网页的及时更新,此外大量分析还表明’对于用户使用过程中会剔除更多的冗余信息,具有较高的查准率。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
3 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
4 李丽;朱国同;陈秀娟;井西利;;模拟退火算法的改进及在静校正中的应用[J];大庆石油地质与开发;2008年05期
5 徐家树;邢立新;覃征;;超链接文本相关度的PageRank算法[J];哈尔滨工业大学学报;2009年01期
6 王福昌;张艳芳;;一种改进模拟退火算法在非线性方程组求解中的应用[J];航空计算技术;2007年06期
7 刘向东 ,骆斌 ,陈兆乾;支持向量机最优模型选择的研究[J];计算机研究与发展;2005年04期
8 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
9 赵仲孟;张蓓;沈均毅;;对搜索引擎未来发展的探讨[J];计算机科学;2001年03期
10 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
相关会议论文 前1条
1 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
相关硕士学位论文 前3条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
3 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
本文编号:
2733789
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2733789.html