基于URL及上下文的主题网络爬虫研究
发布时间:2017-05-02 17:05
本文关键词:基于URL及上下文的主题网络爬虫研究,由笔耕文化传播整理发布。
【摘要】:随着计算机的发展,互联网己经成为世界上最大的信息资源库,通用搜索引擎如百度浏览器、谷歌浏览器等可以通过关键词查询返回大量与关键词相关的结果,能够满足大部分用户的查询需求。但是对于少数用户,他们仅仅对某一个行业或领域的信息感兴趣,所以他们希望搜索引擎仅仅返回自己感兴趣的信息。为了获得与某一个行业或者领域有关的信息,利用主题爬虫算法对通用搜索引擎进行改进。 论文中应用实体分析、网络结构分析并加以算法上的改进,提出了基于URL及上下文的主题爬虫算法,本算法对主题进行了实体分析,根据中文同义词词库将主题描述词进行扩展,作为主题相关度分析算法的输入。同时本算法将网页分成若干个信息块,在网络结构与文本内容两个方面分析每个信息块中的链接及本文内容,根据信息块中主题描述词的词频和权重信息得出该链接在文本内容方面的评分。如果评分大于设定的阈值,,则将该链接认为是与主题相关的,否则与主题不相关。实验结果充分说明本论文提出的基于URL及上下文的主题爬虫可以实现很好的搜索效果。 本文主要包括以下几个研究内容: 1.在查询时,为了提高查询速度使用高性能的全文检索工具Lucene.Net,将网页内容中的链接、锚文本、上下文信息等内容创建索引,实现索引搜索。创建索引虽然会消耗一定的时间,但是创建索引通常在后台进行,而且索引创建之后可以重复利用,具有一劳永逸的作用。 2.本文在实现中文分词时,通过比较Lucene. Net提供的各种分词方法和盘古中文分词,最终选择使用盘古分词。为了实现良好的分词效果,文中仔细研宄了最新版本的盘古分词工具包与其它版本的差异性。 3.在计算主题相关度时,使用向量空间模型,计算余弦相似度结果作为相关度评分,如果评分大于设定的阈值则认为是相关的,否则认为是不相关的。
【关键词】:搜索引擎 自然语言处理 中文分词 信息检索 向量空间模型
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-9
- 目录9-11
- 第一章 绪论11-22
- 1.1 研究目的与意义11-12
- 1.2 研究背景12-14
- 1.3 国内外研究现状14-20
- 1.3.1 关键词搜索主题爬虫14-16
- 1.3.2 网页内容分析主题爬虫16-17
- 1.3.3 链接 URL 特征主题爬虫17-20
- 1.4 论文的组织架构20-22
- 第二章 Lucene.Net 的概述22-33
- 2.1 全文检索基本原理22-24
- 2.1.1 索引23-24
- 2.1.2 全文检索框架24
- 2.2 全文检索相关理论24-26
- 2.2.1 正排索引25
- 2.2.2 倒排索引25-26
- 2.3 Lucene.Net26-29
- 2.3.1 创建索引26-28
- 2.3.2 索引查询28-29
- 2.4 中文分词29-32
- 2.4.1 根据词典进行分词30
- 2.4.2 按照词语的频率进行分词30-31
- 2.4.3 根据理解进行分词31
- 2.4.4 分词算法面对的挑战31-32
- 2.5 本章小结32-33
- 第三章 基于 URL 及上下文的主题网络爬虫33-43
- 3.1 系统架构与工作流程33-34
- 3.2 获取网页编码和主题描述词的扩展34-37
- 3.2.1 获取网页编码34-36
- 3.2.2 扩展主题描述词36-37
- 3.3 主题相关度计算37-42
- 3.3.1 基于分块的多线程处理37-39
- 3.3.2 链接 URL 及上下文的分析39-42
- 3.4 本章小结42-43
- 第四章 实验过程及实验结果分析43-49
- 4.1 实验过程43-45
- 4.1.1 实现简单的网络爬虫43-44
- 4.1.2 实现中文分词44
- 4.1.3 主题网络爬虫44-45
- 4.2 实验结果45-48
- 4.2.1 实验环境45
- 4.2.2 实验结果45-48
- 4.3 本章小结48-49
- 第五章 总结与展望49-50
- 5.1 论文总结49
- 5.2 工作展望49-50
- 参考文献50-53
- 致谢53
【参考文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
3 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
4 杨柳;;空间数据全文检索方法研究[J];测绘工程;2012年06期
5 何国斌;赵晶璐;;基于最大匹配的中文分词概率算法研究[J];计算机工程;2010年05期
6 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期
7 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
9 陈一峰;赵恒凯;余小清;万旺根;;基于遗传算法的主题爬虫策略改进[J];计算机仿真;2010年10期
10 高伟锋;;基于Heritrix的主题网络爬虫设计与实现[J];南宁职业技术学院学报;2011年01期
本文关键词:基于URL及上下文的主题网络爬虫研究,由笔耕文化传播整理发布。
本文编号:341324
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/341324.html