面向主题的网页资源采集系统的研究与实现

发布时间：2017-05-18 12:04

本文关键词：面向主题的网页资源采集系统的研究与实现，，由笔耕文化传播整理发布。

【摘要】：随着互联网技术的飞速发展,人类步入了互联网时代,各种资源以互联网为载体进行汇聚、整合,形成了一个庞大的信息库。在浩如烟海的信息资源中,如何快速、准确、高效地获取所需信息是亟待解决的问题。搜索引擎作为信息检索的工具,成为用户获取信息的主要方式。然而,传统的搜索引擎存在着网页索引规模大、更新速度慢以及查询结果精度低等缺点,为解决这些突出问题,垂直搜索引擎应运而生。主题信息采集系统作为垂直搜索引擎的重要组成部分,在搜索引擎中占有举足轻重的地位,并且随着社会的发展、科技的进步,其应用范围会越来越广,对主题网页资源采集系统进行深入研究具有很深远的意义。围绕构建面向主题的网页资源采集系统,论文对主题信息采集涉及到的关键技术进行深入研究,改进主题相关度计算模型,优化URL爬行策略,提出了基于网页内容和web超链接的双重约束的主题网页信息采集算法。本论文的主要工作如下:(1)本文对web信息抽取技术进行研究,分析了基于自然语言处理、包装器、Ontology方式、web查询方法以及DOM树形结构的web信息抽取方法,研究了每种方法的优缺点,并结合HTML文档结构和特点,分析了解析DOM树形文档的工作原理、相关API接口以及具体解析流程。(2)论文深入探讨主题相关度计算模型,即布尔模型、向量空间模型和概率检索模型,深入地研究了各模型的工作原理及实现机制,并分析各模型的优缺点,为主题相关度计算模型的改进奠定了坚实的基础。此外,针对向量空间模型,具体分析了主题特征词的权重计算方法。(3)本文针对信息采集过程中的爬行策略展开详尽的研究,分析了最好优先搜索算法、Fish算法以及Shark算法等基于文字内容的启发式算法,研究各算法实现原理及工作流程,并分析优缺点,同时基于web有向图结构,分析了HITS、Page Rank、TPR等算法并指出每种算法的优劣。(4)论文在分析现有的主题相关度计算模型及爬行策略优缺点的基础上,结合HTML文档结构,对向量空间模型进行改进,同时考虑网页内容、链接锚文本以及URL字符串对URL主题相关度的影响,优化了URL爬行策略,结合改进后的主题相关度计算模型和优化后的URL爬行策略,提出了基于网页内容和web超链接的双重约束的主题网页信息采集算法。(5)以大豆主题为例,基于Nutch开源架构构建主题网页资源采集系统,并对系统进行性能测试与分析。实验结果表明,该系统运行稳定且具有较高的信息采集准确度。
【关键词】：信息采集 主题相关度 web信息抽取 主题爬虫
【学位授予单位】：东北农业大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP391.1;TP393.092
【目录】：

摘要8-9
英文摘要9-11
1 前言11-17
1.1 课题研究目的和意义11-12
1.2 国内外研究现状12-15
1.3 研究的主要内容15
1.4 本文组织结构15-17
2 主题网页信息采集概述17-25
2.1 搜索引擎介绍17-19
2.1.1 搜索引擎的发展17
2.1.2 搜索引擎的分类17-18
2.1.3 搜索引擎体系结构18-19
2.2 通用网络爬虫19-22
2.2.1 网络爬虫的结构19-20
2.2.2 网络爬虫的工作流程20-21
2.2.3 网络爬虫的搜索策略21-22
2.3 主题网页信息采集22-24
2.3.1 主题爬虫结构22-23
2.3.2 主题爬虫的工作流程23
2.3.3 主题爬虫的特性23-24
2.4 本章小结24-25
3 主题网页信息采集关键技术研究25-44
3.1 Web信息抽取技术25-31
3.1.1 Web信息抽取方法25-28
3.1.2 HTML网页文档对象模型28-31
3.2 网页主题相关度计算模型31-35
3.2.1 布尔模型31
3.2.2 向量空间模型31-33
3.2.3 概率检索模型33-35
3.3 爬行策略算法研究35-39
3.3.1 基于文字内容的算法35-36
3.3.2 基于链接分析的算法36-39
3.4 采集算法改进研究39-43
3.4.1 主题相关度计算模型及爬行策略优缺点分析39-40
3.4.2 网页主题相关度计算模型的改进40
3.4.3 URL爬行策略优化40-42
3.4.4 双重约束主题采集算法42-43
3.5 本章小结43-44
4 系统设计与实现44-52
4.1 大豆主题网页资源采集系统的实现44-49
4.1.1 Web开源软件分析44
4.1.2 Nutch架构及其机制44-46
4.1.3 基于Nutch的采集系统具体实现46-49
4.2 实验测试与分析49-51
4.2.1 性能评价指标49-50
4.2.2 实验比较及分析50-51
4.3 本章小结51-52
5 总结与展望52-54
5.1 全文总结52
5.2 研究展望52-54
致谢54-55
参考文献55-59
攻读硕士学位期间发表的学术论文59

【参考文献】

中国期刊全文数据库前7条

1 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期

2 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期

3 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期

4 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期

5 姚玉开;王烨;卢翠荣;;向量空间模型的信息检索技术[J];价值工程;2013年13期

6 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期

7 刘高军;夏景隆;;基于Heritrix的网络爬虫研究与应用[J];软件导刊;2013年05期

中国硕士学位论文全文数据库前1条

1 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年

本文关键词：面向主题的网页资源采集系统的研究与实现，由笔耕文化传播整理发布。

本文编号：375984

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/375984.html

上一篇：基于协议分析IPV6人侵检测系统的设计与实现
下一篇：基于网络距离的区域云资源节点选择算法的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|