当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的手机全文检索功能的设计与实现

发布时间:2017-04-11 00:37

  本文关键词:基于Lucene的手机全文检索功能的设计与实现,,由笔耕文化传播整理发布。


【摘要】:对于专业Web站点来说,一个优秀的网站内部全文检索系统是不可或缺的。通常有两种解决办法:一种是使用通用的桌面搜索引擎提供的站内搜索功能来检索站点内部数据;第二种是开发特定专用的站内全文检索系统。课题主要内容是对搜索引擎方面技术、数据爬取、分词、检索算法等资料分析研究,设计实现一种提供手机专用检索功能的垂直搜索引擎。垂直搜索引擎又被称为主题搜索引擎或者专题搜索引擎。这类搜索引擎采集某一学科、某一主题、某一行业范围的信息资源,并用较为详细和专业的方法对信息资源进行标引和描述。主题搜索引擎专注于自己的核心技术,保证对特定领域信息的完整收录与即时更新,在提供专业信息方面有着大型通用搜索引擎无法比拟的优势。因此课题意义在于通过对基于因特网的搜索技术的综合分析,对比国内外各种搜索引擎的技术,并给出一个基于手机主题搜索引擎系统实际开发,希望可以作一些有益的探讨。论文对面向主题搜索引擎的关键技术进行了分析,提出了一种基于Lucene面向主题搜索引擎的解决方案,并实现了对手机信息的搜索实现。课题对主题搜索引擎的关键技术即:信息抓取、索引、检索进行了深入分析和研究;研究Heritrix的应用和搜索策略;重点研究Java的索引工具包Lucene。然后,基于以上关键技术提出以手机为主题的搜索引擎的设计方案,包括系统设计思想,技术策略,结构框架,开发环境等,并将设计付诸实践。论文详细介绍了基于Lucene的手机主题搜索引擎的具体实现过程,并对系统测试与运行情况进行展示。课题的主要研究内容包括:研究分析通用搜索引擎和主题搜索引擎的关键技术并对不同的搜索技术进行对比;对Apache Lucene全文索引引擎工具包进行深入剖析,比较Lucene检索和传统数据库检索的异同,以及中文分词技术;在分析研究主题搜索引擎关键技术的基础上,实现基于Lucene的Web站内全文检索系统;分析用于设计和实现的关键技术,并分析得出搜索技术的扩展和重建的可能。
【关键词】:垂直搜索引擎 Lucene 中文分词 Heritrix
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • abstract6-11
  • 第一章 绪论11-19
  • 1.1 设计的目的和意义11-12
  • 1.2 搜索引擎概述12-17
  • 1.2.1 搜索引擎的基本概念和发展史12-13
  • 1.2.2 搜索引擎的分类13-16
  • 1.2.3 搜索引擎面临的问题16
  • 1.2.4 垂直搜索引擎的优点16-17
  • 1.2.5 搜索引擎的性能评价标准17
  • 1.3 国内外研究现状17-18
  • 1.4 论文的章节安排18
  • 1.5 本章小结18-19
  • 第二章 理论与技术基础19-31
  • 2.1 信息检索与全文检索系统概述19-21
  • 2.1.1 信息检索的概念及分类19
  • 2.1.2 全文检索系统中建立索引与进行检索的流程19-20
  • 2.1.3 全文检索系统的基本功能20-21
  • 2.2 JBPM技术21-23
  • 2.3 ASP.NET技术概要23-24
  • 2.4 SOA技术概要24-26
  • 2.5 ORACLE数据库26-27
  • 2.6 SQL SERVER数据库技术27-29
  • 2.7 RATIONAL ROSE29-30
  • 2.7.1 软件简介29-30
  • 2.7.2 特性及功能30
  • 2.8 本章小结30-31
  • 第三章 LUCENE的手机全文检索系统需求分析31-42
  • 3.1 系统开发的可行性分析31-32
  • 3.1.1 经济方面可行性分析31
  • 3.1.2 技术方面的可行性分析31-32
  • 3.1.3 操作方面的可行性32
  • 3.2 系统的功能分析32-36
  • 3.2.1 资源抓取模块32-33
  • 3.2.2 索引模块33-34
  • 3.2.3 检索模块34-35
  • 3.2.4 搜索界面模块35-36
  • 3.3 系统LUCENE的类分析36-37
  • 3.3.1 核心索引类36
  • 3.3.2 核心搜索类36-37
  • 3.4 设计思想和策略分析37-38
  • 3.5 系统总体和模块结构分析38-39
  • 3.6 功能流程设计分析39-41
  • 3.7 LUCENE检索功能用途分析41
  • 3.8 本章小结41-42
  • 第四章 LUCENE的手机全文检索系统设计42-50
  • 4.1 开发设计环境42
  • 4.2 索引擎系统属性配置文件设计42-43
  • 4.3 手机专用搜索引擎中所要使用的JAR43-44
  • 4.4 手机搜索引擎所要用到的包44
  • 4.5 数据库的设计44-45
  • 4.5.1 数据库概念设计44-45
  • 4.5.2 数据库的建立45
  • 4.6 系统的模块设计45-49
  • 4.6.1 资源抓取模块46-47
  • 4.6.2 索引模块47-48
  • 4.6.3 搜索模块48-49
  • 4.7 本章小结49-50
  • 第五章 LUCENE的手机全文检索功能的实现50-62
  • 5.1 配置文件实现50-51
  • 5.2 资源抓取的实现51-52
  • 5.3 索引模块的实现52-58
  • 5.3.1 词库的建立53-54
  • 5.3.2 解析的实现54-58
  • 5.4 搜索界面实现58-61
  • 5.5 本章小结61-62
  • 第六章 系统测试62-71
  • 6.1 系统介绍62
  • 6.2 测试环境62-63
  • 6.2.1 硬件环境62
  • 6.2.2 软件环境62-63
  • 6.2.3 测试范围与主要内容63
  • 6.3 测试计划执行情况63-64
  • 6.3.1 索引模块测试63
  • 6.3.2 分词模块测试63
  • 6.3.3 搜索模块测试63
  • 6.3.4 服务器模块测试63-64
  • 6.3.5 各个模块之间的接口测试64
  • 6.4 系统测试64
  • 6.5 索引模块测试64-65
  • 6.6 数据库模块测试65-66
  • 6.7 搜索模块测试66-69
  • 6.8 页面测试69
  • 6.9 评价69-70
  • 6.10本章小结70-71
  • 第七章 结论与展望71-73
  • 7.1 结论71
  • 7.2 展望71-73
  • 致谢73-74
  • 参考文献74-77

【相似文献】

中国期刊全文数据库 前10条

1 肖诗斌;互联网需要全文检索[J];中国计算机用户;2000年36期

2 傅军;;报纸数字化与全文检索方法研究[J];铁路计算机应用;2012年06期

3 张云;邓声菊;沈德钰;安蕾;;案说高效全文检索的途径与技巧[J];中国发明与专利;2012年09期

4 涤非;美国化学学会18种杂志实现全文检索[J];计算机与图书馆;1983年04期

5 杨则正;借助于Zylmage Web Server的全文检索[J];管理科学文摘;1998年08期

6 ;文海捞针——全文检索在北京日报社的应用[J];每周电脑报;1999年22期

7 刘凌云,章银良,郭秀丽;多媒体全文检索光盘的系统组成与检索原理[J];郑州轻工业学院学报;2000年01期

8 ;全文检索入佳境[J];微电脑世界;2000年37期

9 晓月;;全文检索原理及实现[J];程序员;2006年12期

10 吴泽彬;魏洁;李蔚清;吴慧中;;面向服务架构的全文检索研究[J];华中科技大学学报(自然科学版);2007年S1期

中国重要会议论文全文数据库 前8条

1 曾福萍;周定康;;基于索引服务器实现全文检索[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

2 史建斌;;军控核查数据库光盘全文检索功能的原理及实现[A];中国工程物理研究院科技年报(2005)[C];2005年

3 范志新;王宁;陶晓鹏;施伯乐;;开放式图书馆汉语检索结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年

4 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

6 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年

7 刘亚军;刘延军;胡阳;;报刊图书数字资源公共服务平台项目规划设计[A];中国新闻技术工作者联合会2013年学术年会、五届五次理事会暨第六届“王选新闻科学技术奖”和优秀论文奖颁奖大会论文集(报业篇)[C];2013年

8 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年

中国重要报纸全文数据库 前10条

1 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年

2 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年

3 郭莹;全文检索市场空间大[N];中国计算机报;2006年

4 陈玉荣;更多、更快、更新的检索系统[N];中国企业报;2000年

5 子华;从全文检索到信息整合[N];计算机世界;2003年

6 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年

7 《金周刊》记者 康e

本文编号:297876


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/297876.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c546***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com