检索系统中基于Heritrix信息抽取的研究与实现
发布时间:2017-07-30 22:10
本文关键词:检索系统中基于Heritrix信息抽取的研究与实现
更多相关文章: Java Heritrix Tika 信息抽取 网络爬虫
【摘要】:随着网络技术的迅猛发展,互联网成了最大的信息载体。人们越来越多的依赖网络获取各种需求信息,互联网上的信息查询成了人们生活中一个不可或缺的重要部分。网络信息具备以下特性:信息复杂度高,更新速度快,信息量大且增加速度快。这些特性使得网络上的信息提取成为网络信息技术发展中面临的挑战。如何更快、更准、更全面的帮助用户搜索目标信息,满足用户的搜索需求,成为目前一个炙手可热的问题。解决这个问题,最快且最有效的方式就是对搜索引擎的研究与优化。信息提取作为搜索引擎重要的组成部分,直接影响搜索引擎搜索的准确度和全面性,因此搜索引擎的优化工作主要是对信息抽取部分的优化。 本文结合近些年各大领域的优秀研究成果,根据用户需求的特殊性,从整体到部分,对信息抽取的各个模块进行了优化设计和研究,最终设计实现了一个针对企业应用的网络爬虫。 本文所作的主要工作: 1.本文对当前各领域搜索引擎做了系统的研究与比较,对目前几种开源技术做了一定研究,针对几个重要的评价标准进行了对比分析。此外,本文还对网络爬虫部分相关技术做了介绍,主要包括Heritrix技术、Java技术以及爬虫的基本功能。 2.本文完成了信息检索系统的整体设计,重点研究了网络爬虫以及信息解析的设计。网络爬虫基于Heritrix开源,拥有很强的扩展性。用户可以根据不同的需求,配置需要抓取的种子url,解析文件格式以及输出文件格式。文中运用Tika技术对下载获得的网页资源进行解析处理,ApacheTika封装了很多解析类包,能够有效处理不同格式的文件。 3.本文重点研究了面向企业平台的信息抽取系统的具体实现,信息抽取系统主要包括URL注入,网页爬取,信息解析,页面去重以及信息存储。本文在详细研究各模块的实现方法的基础上,最终完成了信息抽取系统的实现。 实验数据表明,本文设计的以Heritrix开源为基础,结合Tika解析技术的信息抽取系统的功能完整,可以在有限的时间内完成有效信息的抽取,为爬虫的优化工作提供可靠的数据支持。
【关键词】:Java Heritrix Tika 信息抽取 网络爬虫
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 引言10-14
- 1.1 课题研究背景10-11
- 1.2 课题研究意义11-12
- 1.3 项目开发内容及论文章节结构12-14
- 第二章 检索系统关键技术概述14-30
- 2.1 搜索引擎14-18
- 2.1.1 搜索引擎概述14-15
- 2.1.2 搜索引擎分类15-16
- 2.1.3 搜索引擎组成结构16-18
- 2.2 目前开源技术之间比较18-23
- 2.2.1 索引时间19-20
- 2.2.2 核心处理器和内存20-21
- 2.2.3 索引空间占用大小21-22
- 2.2.4 搜索时间22-23
- 2.3 网络爬虫关键技术23-29
- 2.3.1 爬虫基本功能23-27
- 2.3.2 Java技术27
- 2.3.3 Heritrix介绍27-29
- 2.4 本章小结29-30
- 第三章 检索系统分析与概要设计30-41
- 3.1 系统组成结构30-32
- 3.2 信息抽取概要设计32-39
- 3.2.1 网页爬取32-37
- 3.2.2 信息解析37-39
- 3.3 页面去重部分概要设计39-40
- 3.4 本章小结40-41
- 第四章 系统主要功能模块的详细设计与实现41-61
- 4.1 信息抽取部分的详细设计41-42
- 4.2 URL注入部分的实现42-44
- 4.3 网页爬取部分的实现44-51
- 4.4 信息解析部分的实现51-59
- 4.4.1 FileConlection接口的实现52
- 4.4.2 FileParser解析类的实现52-56
- 4.4.3 元数据标签提取的实现56-58
- 4.4.4 异常处理的实现58-59
- 4.5 页面去重部分的实现59
- 4.6 信息存储部分的实现59-60
- 4.7 本章小结60-61
- 第五章 面向企业管理平台的信息抽取实验测试与分析61-65
- 5.1 企业管理平台网站的准备61
- 5.2 企业管理平台信息抽取多组实验61-63
- 5.2.1 企业网站信息抽取实验61-62
- 5.2.2 企业内网信息抽取实验62-63
- 5.2.3 企业办公自动化终端信息抽取实验63
- 5.3 本章小结63-65
- 第六章 总结与展望65-67
- 6.1 论文工作总结65
- 6.2 问题和展望65-67
- 参考文献67-69
- 致谢69
【参考文献】
中国期刊全文数据库 前8条
1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
4 关慧芬;师军;马继红;;基于遗传算法的主题爬行技术研究[J];计算机与数字工程;2008年10期
5 关佶红;许红儒;周水庚;;Web服务搜索技术综述[J];计算机科学与探索;2010年05期
6 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期
7 李晓红;冯志勇;张亮;;元搜索引擎的个性化[J];天津大学学报;2008年05期
8 郭志强;杨松宁;吴光宇;;基于搜索引擎分类及特点的分析[J];中国新技术新产品;2011年11期
,本文编号:596264
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/596264.html