搜索引擎中网络爬虫及结果聚类研究与实现.pdf 全文

发布时间：2016-09-04 16:14

本文关键词：搜索引擎中网络爬虫及结果聚类的研究与实现，由笔耕文化传播整理发布。

中国科学技术大学硕士学位论文 搜索引擎中网络爬虫及结果聚类的研究与实现 姓名:梁萍申请学位级别:硕士专业:模式识别与智能系统指导教师:帅建梅 2011-05-12摘要摘要随着网络科技和搜索技术的快速发展,人们生活中越来越多地通过互联网和搜索引擎来获取各种信息。搜索引擎通过网络爬虫定期地从互联网上抓取新的网页,并为网页内容建立索引数据库,以方便后续的信息检索。网络爬虫的爬行效率直接影响着搜索引擎的检索效果,爬行的规模越大,周期越短,查全率就越高。另一方面,近年来随着搜索引擎提供服务的多样性,网络成为人们获取新闻资讯的主要媒介之一,新闻热点搜索等方面的中文短文本在线聚类和语词间语义层面的聚类需求越来越多。本文主要针对搜索引擎中的网络爬虫和搜索结果的短文本聚类进行了研究。在网络爬虫方面,为了提高爬虫性能,主要是对爬虫的核心模块??页面解析模块和去重模块分别给出了相应的改进方法。 (1)对于爬虫的页面解析方法,本文改变了 Weblech 等开源爬虫中所使用的利用 HTML tag 标签匹配抽取的方式,而是将半结构化的文档转化为 XML, 进而表示成 DOM 文档对象模型来抽取内容,这种方式充分利用了结构化信息容易抽取的优势,同时也方便使用很多优秀的读写 XML 的开源程序比如 DOM4J,JDOM 来改进程序的效率。 (2)爬虫系统中如何高效去重是个较复杂的议题,传统的概率算法 Bloom Filter 在 URLs 去重上表现出了非常好的空间效率,但也伴随着一定的误判率, 且误判率会随着爬行规模的增大而提高。本文提出一种基于 Bloom Filter 的分段哈希算法对爬虫的 URLs 去重模块进行了改进,在减小误判率的基础上提高爬虫性能。通过对上述页面解析和 URLs 去重改进方法的实

本文关键词：搜索引擎中网络爬虫及结果聚类的研究与实现，由笔耕文化传播整理发布。

，

本文编号：109021

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/109021.html

上一篇：e龙旅行网搜索引擎营销策略研究.pdf
下一篇：面向Web2.0社区的爬虫关键技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|