面向主题的网页资源采集系统的研究与实现
发布时间:2017-05-18 12:04
本文关键词:面向主题的网页资源采集系统的研究与实现,,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的飞速发展,人类步入了互联网时代,各种资源以互联网为载体进行汇聚、整合,形成了一个庞大的信息库。在浩如烟海的信息资源中,如何快速、准确、高效地获取所需信息是亟待解决的问题。搜索引擎作为信息检索的工具,成为用户获取信息的主要方式。然而,传统的搜索引擎存在着网页索引规模大、更新速度慢以及查询结果精度低等缺点,为解决这些突出问题,垂直搜索引擎应运而生。主题信息采集系统作为垂直搜索引擎的重要组成部分,在搜索引擎中占有举足轻重的地位,并且随着社会的发展、科技的进步,其应用范围会越来越广,对主题网页资源采集系统进行深入研究具有很深远的意义。围绕构建面向主题的网页资源采集系统,论文对主题信息采集涉及到的关键技术进行深入研究,改进主题相关度计算模型,优化URL爬行策略,提出了基于网页内容和web超链接的双重约束的主题网页信息采集算法。本论文的主要工作如下:(1)本文对web信息抽取技术进行研究,分析了基于自然语言处理、包装器、Ontology方式、web查询方法以及DOM树形结构的web信息抽取方法,研究了每种方法的优缺点,并结合HTML文档结构和特点,分析了解析DOM树形文档的工作原理、相关API接口以及具体解析流程。(2)论文深入探讨主题相关度计算模型,即布尔模型、向量空间模型和概率检索模型,深入地研究了各模型的工作原理及实现机制,并分析各模型的优缺点,为主题相关度计算模型的改进奠定了坚实的基础。此外,针对向量空间模型,具体分析了主题特征词的权重计算方法。(3)本文针对信息采集过程中的爬行策略展开详尽的研究,分析了最好优先搜索算法、Fish算法以及Shark算法等基于文字内容的启发式算法,研究各算法实现原理及工作流程,并分析优缺点,同时基于web有向图结构,分析了HITS、Page Rank、TPR等算法并指出每种算法的优劣。(4)论文在分析现有的主题相关度计算模型及爬行策略优缺点的基础上,结合HTML文档结构,对向量空间模型进行改进,同时考虑网页内容、链接锚文本以及URL字符串对URL主题相关度的影响,优化了URL爬行策略,结合改进后的主题相关度计算模型和优化后的URL爬行策略,提出了基于网页内容和web超链接的双重约束的主题网页信息采集算法。(5)以大豆主题为例,基于Nutch开源架构构建主题网页资源采集系统,并对系统进行性能测试与分析。实验结果表明,该系统运行稳定且具有较高的信息采集准确度。
【关键词】:信息采集 主题相关度 web信息抽取 主题爬虫
【学位授予单位】:东北农业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要8-9
- 英文摘要9-11
- 1 前言11-17
- 1.1 课题研究目的和意义11-12
- 1.2 国内外研究现状12-15
- 1.3 研究的主要内容15
- 1.4 本文组织结构15-17
- 2 主题网页信息采集概述17-25
- 2.1 搜索引擎介绍17-19
- 2.1.1 搜索引擎的发展17
- 2.1.2 搜索引擎的分类17-18
- 2.1.3 搜索引擎体系结构18-19
- 2.2 通用网络爬虫19-22
- 2.2.1 网络爬虫的结构19-20
- 2.2.2 网络爬虫的工作流程20-21
- 2.2.3 网络爬虫的搜索策略21-22
- 2.3 主题网页信息采集22-24
- 2.3.1 主题爬虫结构22-23
- 2.3.2 主题爬虫的工作流程23
- 2.3.3 主题爬虫的特性23-24
- 2.4 本章小结24-25
- 3 主题网页信息采集关键技术研究25-44
- 3.1 Web信息抽取技术25-31
- 3.1.1 Web信息抽取方法25-28
- 3.1.2 HTML网页文档对象模型28-31
- 3.2 网页主题相关度计算模型31-35
- 3.2.1 布尔模型31
- 3.2.2 向量空间模型31-33
- 3.2.3 概率检索模型33-35
- 3.3 爬行策略算法研究35-39
- 3.3.1 基于文字内容的算法35-36
- 3.3.2 基于链接分析的算法36-39
- 3.4 采集算法改进研究39-43
- 3.4.1 主题相关度计算模型及爬行策略优缺点分析39-40
- 3.4.2 网页主题相关度计算模型的改进40
- 3.4.3 URL爬行策略优化40-42
- 3.4.4 双重约束主题采集算法42-43
- 3.5 本章小结43-44
- 4 系统设计与实现44-52
- 4.1 大豆主题网页资源采集系统的实现44-49
- 4.1.1 Web开源软件分析44
- 4.1.2 Nutch架构及其机制44-46
- 4.1.3 基于Nutch的采集系统具体实现46-49
- 4.2 实验测试与分析49-51
- 4.2.1 性能评价指标49-50
- 4.2.2 实验比较及分析50-51
- 4.3 本章小结51-52
- 5 总结与展望52-54
- 5.1 全文总结52
- 5.2 研究展望52-54
- 致谢54-55
- 参考文献55-59
- 攻读硕士学位期间发表的学术论文59
【参考文献】
中国期刊全文数据库 前7条
1 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
2 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期
3 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
4 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
5 姚玉开;王烨;卢翠荣;;向量空间模型的信息检索技术[J];价值工程;2013年13期
6 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
7 刘高军;夏景隆;;基于Heritrix的网络爬虫研究与应用[J];软件导刊;2013年05期
中国硕士学位论文全文数据库 前1条
1 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年
本文关键词:面向主题的网页资源采集系统的研究与实现,由笔耕文化传播整理发布。
本文编号:375984
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/375984.html