当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene和Heritrix搜索引擎的设计

发布时间:2017-05-19 09:12

  本文关键词:基于Lucene和Heritrix搜索引擎的设计,由笔耕文化传播整理发布。


【摘要】:随着互联网技术迅猛的发展,网络信息量不断增多,面对海量的网络信息,人们发现,通用搜索引擎的准确率低、实时性较差。搜索引擎是把因特网技术和计算机应用技术相结合起来所形成的一种信息检索技术。垂直搜索引擎是指用户可以对某一特定领域进行检索,用户利用它可以在海量的数据中更精准、快速、便捷、专业的进行检索。垂直搜索引擎是用于搜索某一特定主题的搜索工具,也被称为专业搜索引擎。它主要克服了通用搜索引擎的信息海量、查询准确度不够、查询内容不深入等缺点,它主要特点是将网页的非结构化数据抽取成结构化数据,然后进行索引。Lucene运用大量的面向对象设计思想成为了一个优秀全文搜索引擎。Heritrix是具有强大抓取数据能力的爬虫软件,实现在特定的Web网页中进行数据抓取,然后用数据库把抓取内容组织起来,最终通过服务器显示出与客户端所请求的匹配的相关信息。本文结合国内外搜索引擎发展的现有状况,论述了基于Lucene和Heritrix垂直搜索引擎的原理,并对垂直搜索引擎进行设计。本文首先论述了基于英特网的搜索引擎的系统结构,然后详细介绍了开放源代码的全文检索引擎工具包Lucene、java开源网络爬虫Heritrix、以及Web服务器。最后,设计并且开发了一个垂直搜索引擎——图书信息搜索引擎。该搜索引擎利用了Lucene和Heritrix进行了详细的设计,实现了利用网络爬虫抓取网站的图书信息并进行结构化提取和存储,然后建立索引数据库,最终用户可以通过搜索的方式更加准确的搜索出用户所需要的图书信息。
【关键词】:垂直搜索引擎 Lucene Heritrix 网络爬虫
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 引言8-12
  • 1.1 课题研究背景和意义8
  • 1.2 国内外的现状8-10
  • 1.3 本文的主要工作10
  • 1.4 本文组织结构和章节安排10
  • 1.4.1 本文组织结构10
  • 1.4.2 本文章节安排10
  • 1.5 设计目标10-12
  • 第二章 垂直搜索引擎相关技术12-22
  • 2.1 垂直搜索引擎的介绍及探究12-14
  • 2.1.1 垂直搜索的概述12
  • 2.1.2 垂直搜索引擎和通用搜索引擎的异同点12-13
  • 2.1.3 垂直搜索引擎的构成13-14
  • 2.2 网络爬虫技术14-19
  • 2.2.1 Heritrix网络爬虫的概述14-15
  • 2.2.2 网络爬虫的工作原理15
  • 2.2.3 网络爬虫的抓取工作策略15-18
  • 2.2.4 Heritrix网络爬虫工具的应用优势18
  • 2.2.5 网络爬虫的注意事项18-19
  • 2.3 信息提取技术19
  • 2.3.1 信息提取技术概述19
  • 2.3.2 信息提取技术19
  • 2.4 中文分词技术19-21
  • 2.4.1 中文分词概述20
  • 2.4.2 中文分词相关技术20-21
  • 2.5 全文索引技术21-22
  • 2.5.1 全文索引技术概述21
  • 2.5.2 全文索引技术方法21-22
  • 第三章 全文搜索引擎LUCENE22-30
  • 3.1 全文搜索引擎LUCENE简介22
  • 3.2 LUCENE框架组成和优势22-24
  • 3.3 LUCENE的索引24-28
  • 3.3.1 Lucene的逻辑结构24-25
  • 3.3.2 Lucene的物理结构25
  • 3.3.3 Lucene索引的创立25-27
  • 3.3.4 索引的合并与优化27-28
  • 3.4 LUCENE的搜索28-29
  • 3.4.1 Lucene搜索的创建28
  • 3.4.2 Lucene对搜索结果的评分和排序28-29
  • 3.5 小结29-30
  • 第四章 图书垂直搜索引擎系统分析30-36
  • 4.1 需求分析30-34
  • 4.1.1 需求背景30
  • 4.1.2 业务流程30-31
  • 4.1.3 数据流动过程31
  • 4.1.4 功能分析31-32
  • 4.1.5 数据分析32-33
  • 4.1.6 状态转换图33-34
  • 4.2 系统环境分析34
  • 4.3 系统性能分析34-36
  • 第五章 图书信息垂直搜索引擎的设计36-42
  • 5.1 垂直搜索引擎系统的设计36-37
  • 5.1.1 系统功能概述36
  • 5.1.2 系统功能设计36-37
  • 5.2 设计爬虫模块37-39
  • 5.2.1 爬虫的设计思想37
  • 5.2.2 确定爬虫清单37-39
  • 5.3 建立信息抽取模块39-40
  • 5.3.1 信息抽取模块概述39
  • 5.3.2 信息抽取模块的设计思想39-40
  • 5.4 建立索引和设计数据库40-42
  • 5.4.1 建立索引40
  • 5.4.2 设计数据库40-42
  • 第六章 图书信息垂直搜索引擎的实现42-48
  • 6.1 抓取图书信息网页42-43
  • 6.2 抽取网页信息43
  • 6.3 索引和数据库的建立43-45
  • 6.3.1 建立图书信息词库43
  • 6.3.2 数据添加43-44
  • 6.3.3 构建索引并向索引添加图书信息44
  • 6.3.4 图书信息的综合处理44-45
  • 6.4 建立索引模块45-48
  • 6.4.1 管理配置文件和相关类开发设计45-46
  • 6.4.2 前台的页面设计46-48
  • 结论48-49
  • 致谢49-50
  • 参考文献50-52
  • 攻读硕士学位期间研究成果52

【参考文献】

中国期刊全文数据库 前10条

1 赵刚;郭东伟;李丹;;基于序列比对的动态Web信息抽取算法[J];吉林大学学报(理学版);2010年03期

2 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期

3 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

4 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

5 黄玮夏;;分类搜索引擎的体系构建及其使用方法探析[J];情报科学;2009年04期

6 刘杰;;垂直搜索引擎的应用研究[J];企业技术开发;2011年13期

7 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期

8 洪光宗,王皓;搜索引擎Robot技术实现的原理分析[J];现代图书情报技术;2002年01期

9 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期

10 劳志佳;;基于Lucene3.5搜索技术的研究与实现[J];现代计算机(专业版);2012年06期

中国硕士学位论文全文数据库 前7条

1 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年

2 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年

3 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年

4 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

5 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

6 鲁小川;基于LUCENE的网络搜索引擎系统研究及实现[D];武汉理工大学;2010年

7 金婵鸣;垂直搜索引擎系统的研究[D];武汉理工大学;2010年


  本文关键词:基于Lucene和Heritrix搜索引擎的设计,由笔耕文化传播整理发布。



本文编号:378273

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/378273.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92cb6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com