当前位置:主页 > 科技论文 > 软件论文 >

垂直搜索引擎中关键技术的研究

发布时间:2017-11-02 20:21

  本文关键词:垂直搜索引擎中关键技术的研究


  更多相关文章: 垂直搜索引擎 Heritrix爬虫 中文分词 Lucene索引


【摘要】:搜索引擎的出现满足了人们的检索需求,众所周知的百度、Google等搜索引擎已经深深地渗入到人们的日常生活中了。然而Internet数据量已经超出了搜索引擎所能覆盖的范围,全球互联网资源已达数以亿计,人们很难从通用搜索引擎获取自己所需的特定主题领域的信息。垂直搜索引擎的出现,解决了这一难题,实现了特定用户对特定主题信息的准确检索。本文简要介绍了课题研究背景、搜索引擎的基本工作原理以及垂直搜索引擎在国内外的发展现状,阐述了垂直搜索引擎的相关理论,给出了垂直搜索引擎的基本概念、与通用搜索引擎的区别和评价垂直搜索引擎性能的准则。并介绍了垂直搜索引擎的各组成模块及其功能,对垂直搜索引擎中所涉及的核心技术进行了深入的研究,主要有爬虫技术、网页结构化提取技术,中文分词技术和Lucene索引技术,这些技术应用于垂直搜索引擎中的信息采集模块、信息提取模块、索引模块和用户接口模块的实现。其中,信息采集模块利用爬虫技术从Internet网络上爬取数据;信息提取模块是对已下载的网页进行结构化的提取操作;索引模块将提取到的结构化信息建立索引库;用户结构模块给用户提供了一个查询界面,供用户提供查询请求和返回结果给用户。本文主要的研究工作及创新点有:通过扩展和改进功能强大的开源爬虫框架Heritrix,使其对体育用品信息能够实现定向抓取,引入APHash算法,改进队列分配策略,极大地提高了Heritrix爬虫的效率;用体育用品品牌等专业词汇扩充了JE分词工具所用到的主题词库,使其成为特色专业词库,在很大程度上提高了查询的准确率;在对垂直搜索引擎的核心技术和各功能模块的研究基础上,成功搭建了一个面向体育用品信息的垂直搜索系统原型,实现了对体育用品进行简单的查询操作。
【关键词】:垂直搜索引擎 Heritrix爬虫 中文分词 Lucene索引
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-7
  • 第一章 绪论7-11
  • 1.1 研究背景7
  • 1.2 搜索引擎的发展状况7-8
  • 1.3 搜索引擎的基本工作原理8
  • 1.4 垂直搜索引擎在国内外发展现状8-9
  • 1.4.1 垂直搜索引擎的发展过程8-9
  • 1.4.2 垂直搜索引擎的未来发展方向9
  • 1.5 本文章节安排9-11
  • 第二章 垂直搜索引擎的相关理论11-16
  • 2.1 垂直搜索引擎的概念及与通用搜索引擎的区别11
  • 2.2 垂直搜索引擎性能优劣的评价准则11-12
  • 2.3 垂直搜索引擎的各模块功能12-14
  • 2.4 主题爬虫简介14-15
  • 2.4.1 主题爬虫的基础理论14
  • 2.4.2 主题爬虫的系统结构14-15
  • 2.5 小结15-16
  • 第三章 垂直搜索引擎核心技术的研究16-33
  • 3.1 主题搜索研究16-19
  • 3.1.1 基于内容评价的搜索策略16-17
  • 3.1.2 基于链接结构的搜索策略17-19
  • 3.2 开源网络爬虫Heritrix19-22
  • 3.2.1 Heritrix体系结构19-20
  • 3.2.2 Heritrix定向抓取的改进20-22
  • 3.3 网页分析提取技术22-24
  • 3.3.1 JDK正则表达式22-23
  • 3.3.2 HTMLParser解析工具23-24
  • 3.4 中文分词技术24-28
  • 3.4.1 基于词典匹配字符串的分词算法24-25
  • 3.4.2 基于词频统计的分词算法25-26
  • 3.4.3 基于理解的分词算法26-27
  • 3.4.4 基于JE的分词算法改进27-28
  • 3.5 Lucene全文检索引擎28-32
  • 3.5.1 简介28-29
  • 3.5.2 Lucene几个主要索引文件29
  • 3.5.3 Lucene的索引过程29-31
  • 3.5.4 Lucene的检索机制及查询流程31-32
  • 3.6 小结32-33
  • 第四章 面向体育用品的垂直搜索引擎系统设计33-37
  • 4.1 系统需求33-34
  • 4.2 系统体系结构设计34-35
  • 4.3 系统功能设计35
  • 4.4 硬件基础和软件开发环境35-36
  • 4.5 小结36-37
  • 第五章 面向体育用品的垂直搜索系统实现37-45
  • 5.1 Heritrix爬虫抓取实验37-38
  • 5.2 体育用品信息结构化提取实验38
  • 5.3 中文分词改进测试38-39
  • 5.4 数据存储组织及索引库39-41
  • 5.4.1 数据库结构39
  • 5.4.2 Lucene索引构建与检索的实现39-40
  • 5.4.3 用户查询接口40-41
  • 5.5 系统测试与验证41-44
  • 5.6 小结44-45
  • 第六章 总结与展望45-47
  • 参考文献47-50
  • 致谢50-51
  • 作者简介51
  • 攻读硕士学位期间研究成果51

【参考文献】

中国期刊全文数据库 前10条

1 王春艳;李玉福;;垂直搜索引擎中信息过滤技术的研究[J];情报科学;2014年03期

2 史宝明;贺元香;吴崇正;;主题搜索引擎中爬虫搜索策略的研究[J];计算机工程与应用;2014年02期

3 王恒;王少山;高玉琢;;面向主题的域内垂直搜索引擎系统的研究与实现[J];宁夏大学学报(自然科学版);2013年01期

4 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期

5 邹嵩;赵诗阳;周新志;;垂直搜索引擎中分词技术的算法研究[J];计算机技术与发展;2012年02期

6 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期

7 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期

8 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期

9 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期

10 陈兰;金远平;;基于本体的垂直搜索引擎研究[J];计算机应用与软件;2009年11期

中国硕士学位论文全文数据库 前4条

1 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年

2 刘育莲;手机产品垂直搜索引擎的设计与实现[D];西安电子科技大学;2012年

3 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年

4 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年



本文编号:1133022

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1133022.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bac5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com