垂直搜索引擎中关键技术的研究
本文关键词:垂直搜索引擎中关键技术的研究
更多相关文章: 垂直搜索引擎 Heritrix爬虫 中文分词 Lucene索引
【摘要】:搜索引擎的出现满足了人们的检索需求,众所周知的百度、Google等搜索引擎已经深深地渗入到人们的日常生活中了。然而Internet数据量已经超出了搜索引擎所能覆盖的范围,全球互联网资源已达数以亿计,人们很难从通用搜索引擎获取自己所需的特定主题领域的信息。垂直搜索引擎的出现,解决了这一难题,实现了特定用户对特定主题信息的准确检索。本文简要介绍了课题研究背景、搜索引擎的基本工作原理以及垂直搜索引擎在国内外的发展现状,阐述了垂直搜索引擎的相关理论,给出了垂直搜索引擎的基本概念、与通用搜索引擎的区别和评价垂直搜索引擎性能的准则。并介绍了垂直搜索引擎的各组成模块及其功能,对垂直搜索引擎中所涉及的核心技术进行了深入的研究,主要有爬虫技术、网页结构化提取技术,中文分词技术和Lucene索引技术,这些技术应用于垂直搜索引擎中的信息采集模块、信息提取模块、索引模块和用户接口模块的实现。其中,信息采集模块利用爬虫技术从Internet网络上爬取数据;信息提取模块是对已下载的网页进行结构化的提取操作;索引模块将提取到的结构化信息建立索引库;用户结构模块给用户提供了一个查询界面,供用户提供查询请求和返回结果给用户。本文主要的研究工作及创新点有:通过扩展和改进功能强大的开源爬虫框架Heritrix,使其对体育用品信息能够实现定向抓取,引入APHash算法,改进队列分配策略,极大地提高了Heritrix爬虫的效率;用体育用品品牌等专业词汇扩充了JE分词工具所用到的主题词库,使其成为特色专业词库,在很大程度上提高了查询的准确率;在对垂直搜索引擎的核心技术和各功能模块的研究基础上,成功搭建了一个面向体育用品信息的垂直搜索系统原型,实现了对体育用品进行简单的查询操作。
【关键词】:垂直搜索引擎 Heritrix爬虫 中文分词 Lucene索引
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-11
- 1.1 研究背景7
- 1.2 搜索引擎的发展状况7-8
- 1.3 搜索引擎的基本工作原理8
- 1.4 垂直搜索引擎在国内外发展现状8-9
- 1.4.1 垂直搜索引擎的发展过程8-9
- 1.4.2 垂直搜索引擎的未来发展方向9
- 1.5 本文章节安排9-11
- 第二章 垂直搜索引擎的相关理论11-16
- 2.1 垂直搜索引擎的概念及与通用搜索引擎的区别11
- 2.2 垂直搜索引擎性能优劣的评价准则11-12
- 2.3 垂直搜索引擎的各模块功能12-14
- 2.4 主题爬虫简介14-15
- 2.4.1 主题爬虫的基础理论14
- 2.4.2 主题爬虫的系统结构14-15
- 2.5 小结15-16
- 第三章 垂直搜索引擎核心技术的研究16-33
- 3.1 主题搜索研究16-19
- 3.1.1 基于内容评价的搜索策略16-17
- 3.1.2 基于链接结构的搜索策略17-19
- 3.2 开源网络爬虫Heritrix19-22
- 3.2.1 Heritrix体系结构19-20
- 3.2.2 Heritrix定向抓取的改进20-22
- 3.3 网页分析提取技术22-24
- 3.3.1 JDK正则表达式22-23
- 3.3.2 HTMLParser解析工具23-24
- 3.4 中文分词技术24-28
- 3.4.1 基于词典匹配字符串的分词算法24-25
- 3.4.2 基于词频统计的分词算法25-26
- 3.4.3 基于理解的分词算法26-27
- 3.4.4 基于JE的分词算法改进27-28
- 3.5 Lucene全文检索引擎28-32
- 3.5.1 简介28-29
- 3.5.2 Lucene几个主要索引文件29
- 3.5.3 Lucene的索引过程29-31
- 3.5.4 Lucene的检索机制及查询流程31-32
- 3.6 小结32-33
- 第四章 面向体育用品的垂直搜索引擎系统设计33-37
- 4.1 系统需求33-34
- 4.2 系统体系结构设计34-35
- 4.3 系统功能设计35
- 4.4 硬件基础和软件开发环境35-36
- 4.5 小结36-37
- 第五章 面向体育用品的垂直搜索系统实现37-45
- 5.1 Heritrix爬虫抓取实验37-38
- 5.2 体育用品信息结构化提取实验38
- 5.3 中文分词改进测试38-39
- 5.4 数据存储组织及索引库39-41
- 5.4.1 数据库结构39
- 5.4.2 Lucene索引构建与检索的实现39-40
- 5.4.3 用户查询接口40-41
- 5.5 系统测试与验证41-44
- 5.6 小结44-45
- 第六章 总结与展望45-47
- 参考文献47-50
- 致谢50-51
- 作者简介51
- 攻读硕士学位期间研究成果51
【参考文献】
中国期刊全文数据库 前10条
1 王春艳;李玉福;;垂直搜索引擎中信息过滤技术的研究[J];情报科学;2014年03期
2 史宝明;贺元香;吴崇正;;主题搜索引擎中爬虫搜索策略的研究[J];计算机工程与应用;2014年02期
3 王恒;王少山;高玉琢;;面向主题的域内垂直搜索引擎系统的研究与实现[J];宁夏大学学报(自然科学版);2013年01期
4 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期
5 邹嵩;赵诗阳;周新志;;垂直搜索引擎中分词技术的算法研究[J];计算机技术与发展;2012年02期
6 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期
7 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期
8 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期
9 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期
10 陈兰;金远平;;基于本体的垂直搜索引擎研究[J];计算机应用与软件;2009年11期
中国硕士学位论文全文数据库 前4条
1 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年
2 刘育莲;手机产品垂直搜索引擎的设计与实现[D];西安电子科技大学;2012年
3 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
4 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年
,本文编号:1133022
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1133022.html