搜索引擎中网络爬虫及结果聚类研究与实现.pdf 全文
本文关键词:搜索引擎中网络爬虫及结果聚类的研究与实现,由笔耕文化传播整理发布。
中国科学技术大学
硕士学位论文
搜索引擎中网络爬虫及结果聚类的研究与实现
姓名:梁萍
申请学位级别:硕士
专业:模式识别与智能系统
指导教师:帅建梅
2011-05-12摘 要
摘 要
随着网络科技和搜索技术的快速发展,人们生活中越来越多地通过互联网
和搜索引擎来获取各种信息。搜索引擎通过网络爬虫定期地从互联网上抓取新
的网页,并为网页内容建立索引数据库,以方便后续的信息检索。网络爬虫的
爬行效率直接影响着搜索引擎的检索效果,爬行的规模越大,周期越短,查全
率就越高。另一方面,近年来随着搜索引擎提供服务的多样性,网络成为人们
获取新闻资讯的主要媒介之一,新闻热点搜索等方面的中文短文本在线聚类和
语词间语义层面的聚类需求越来越多。
本文主要针对搜索引擎中的网络爬虫和搜索结果的短文本聚类进行了研
究。在网络爬虫方面,为了提高爬虫性能,主要是对爬虫的核心模块??页面
解析模块和去重模块分别给出了相应的改进方法。
(1)对于爬虫的页面解析方法,本文改变了 Weblech 等开源爬虫中所使用
的利用 HTML tag 标签匹配抽取的方式,而是将半结构化的文档转化为 XML,
进而表示成 DOM 文档对象模型来抽取内容,这种方式充分利用了结构化信息
容易抽取的优势,同时也方便使用很多优秀的读写 XML 的开源程序比如
DOM4J,JDOM 来改进程序的效率。
(2)爬虫系统中如何高效去重是个较复杂的议题,传统的概率算法 Bloom
Filter 在 URLs 去重上表现出了非常好的空间效率,但也伴随着一定的误判率,
且误判率会随着爬行规模的增大而提高。本文提出一种基于 Bloom Filter 的分
段哈希算法对爬虫的 URLs 去重模块进行了改进,在减小误判率的基础上提高
爬虫性能。
通过对上述页面解析和 URLs 去重改进方法的实
本文关键词:搜索引擎中网络爬虫及结果聚类的研究与实现,由笔耕文化传播整理发布。
,本文编号:109021
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/109021.html