基于Lucene的电子公文检索系统的研究与实现50
本文关键词:Lucene全文检索在网络教学平台中的应用研究,由笔耕文化传播整理发布。
结论;本文工作成果;本文在深入研究全文检索系统和全面剖析Lucene;第一,支持电子公文中各种格式文档的全文检索;第二,支持中英文的全文检索系统;第三,采用自动索引和手工索引两种方法来对索引进行;第四,对Lucene的结果排序算法进行改进,改进;第五,采用Java语言和SSH框架技术来进行系统;由于时间和技术水平有限,本文的电子公文检索系统还;第一,本系统缺
结 论
本文工作成果
本文在深入研究全文检索系统和全面剖析Lucene相关技术的基础上,设计并实现了基于Lucene的电子公文检索系统。该系统在实验环境中己经能够稳定、高效地运行,达到了预期的目标。在开发该系统的过程中,取得的成果可以归结为以下几点:
第一,支持电子公文中各种格式文档的全文检索。可以对Text、PDF、Word、Excel等文档进行文本抽取,把它们转化为索引的固定格式,以方便全文检索系统对其内容进行索引和存储,从而弥补Lucene内核只能处理纯文本文档的不足。
第二,支持中英文的全文检索系统。在中文分词方面,本文采用了基于词典的正向最大匹配算法。比起Lucene内核包的单字切分方式和 Lucene扩展包的二元切分方式,本文设计并实现的切分词方法效率更高、性能更好。
第三,采用自动索引和手工索引两种方法来对索引进行实时更新,使得索引更新变得更加灵活。
第四,对Lucene的结果排序算法进行改进,改进后的结果排序算法能够将用户所关心的信息结果返回到页面的最前端,从而更加满足用户的需求。
第五,采用Java语言和SSH框架技术来进行系统的开发,该系统具有良好的可移植性和扩展性,并可以使得整个系统径渭分明,修改界面和数据表示更加灵活。 工作展望
由于时间和技术水平有限,本文的电子公文检索系统还有许多不足的地方,这些不足也帮助了系统的不断完善,使之走向成熟与稳定。因此,在以下几个方面,还需要进行继续深入的研究,以提高整个系统的性能。
第一,本系统缺乏语义处理能力,存在信息的误检、漏检等缺陷,用户不能根据语义分析来找到与需求相关的信息。所以如何实现信息资源的语义检索来提高检索精度,是将要研究的问题。
第二,,本文探讨的系统是基于单服务器的全文检索系统,对于数据量和访问量很大的系统,就需要采用分布式处理策略,才能扩展全文检索的性能。如何将分布式处理应用到全文检索系统中将有待探讨。
参考文献
[1] 郭艳阳.基于本体论及Lucene的电子公文检索系统[D].江西财经大学硕士学 位论文.2006.1-2 22-23
[2] George Samaras,Odysseas Papapetrou.Distributed Location Aware Web Crawling.
In Proceedings of the 13th international World Wide Web conference[J].NewYork,
USA:ACM Press,2004:468-469
[3] 施晓华,黄冀.信息检索新技术.中国信息导报[J].2005(3):64-66
[4] 张校乾.基于Lucene的全文检索系统的研究与应用[D].大连理工大学硕士学位论
文.2005.5-6 8-12
[5] 周平.Lucene全文检索引擎技术及应用.重庆工学院学报(自然科学版)[J]. 2007,21(4):86-88
[6] 陈宁.基于Lucene全文检索在网络教学平台中的应用研究[D].大连海事大学
硕士学位论文.2007.1-2 10-11
[7] 赖茂生等.计算机情报检索[M].北京:北京大学出版社.2006.3-4
[8] 方志,夏立新,刘启强.中外全文检索研究的现状及趋势[J].图书情报知识.
2006,9:71-75
[9] Erik Hatcher.Lucene in Action [M].USA:Manning Publication.2004.7-8
[10] 黄杰.基于Lucene的全文检索系统模型的研究[D].暨南大学硕士学位论文. 2007.6-7
[11] Charles T,Meadow.Text Information Retrieval Systems 2nd edition[M].
San Diego:Academic Press,2000.10-11
[12] 陈慧萍,于国政,王建东.全文索引技术在办公自动化系统中的应用研究.计 算机应用研究[J].2007(1):222-224
[13] 张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实 现[J].现代图书情报技术.2005(2):111-113
[14] 陈魁.智能搜索引擎系统的分析设计与开发[D].大连理工大学硕士学位论文.
2004.6-7
[15] callan.Lucene倒排索引原理.
[16] IBM Devloper Works. Parsing, Indexing, and Searching XML with Digester and Lucene .2003.
[17] Linwood J. Give Your Web Site Search Engine Using Lucene.
builder.com.2003
[18] 车东.基于Java的全文索引引擎Lucene简介. tech/lucene.html.2003
[19] 陆云.对基于Java的全文检索工具包lucene的索引研究.电脑学习.2007(2): 45-46
[20] 宋佳,诸云强,刘润达.一种基于Lucene 改进的全文检索工具包.计算机工程 与应用[J].2008, 44(4):172-175
[21] Apache Software Foundation:Lucene Syntax, /lucene/docs
[22] 王莉云,王华,陈刚,姚乃明.基于Lucene的全文检索系统的设计与实现[J].计 算机工程与设计.2007, 28(24):5959-5961
[23] 张宏松.基于Lucene的web站内英文PDF文档全文检索研究[D].辽宁工程技 术大学硕士学位论文.2007.2-3 10-11
[24] 曹强.基Lucene的Web站点站内全文检索系统的设计与实现[J].图书情报工 作.2007,51(9):124-126
[25] 吴海明.基于Lucene的搜索引擎技术的研究与改进[D].暨南大学硕士学位论 文.2006.10-11
[26]
[27] 温艳鸿.基于Lucene的文件搜索引擎的设计与扩展[J].福建电脑.2007(8): 125-126
[28] Xue,N.Chinese Word Segmentation as Character Tagging[J].Computational and Chinese Language Processing .2003,8(1):29-48
[29] Winter.中文搜索引擎技术揭密:中文分词. twiki/bin/view.pl/Main/SESegment
[30] 邱哲,符滔滔.开发自己的搜索引擎Lucene2.0+Heritrix[M].北京:人民邮电 出版社.2007.220-254
[31] 王杨.基于SSH框架的代码生成工具的设计与实现[D].沈阳理工大学硕士学 位论文.2008.31-33
[32] 于玉海.基于MVC模式的Struts框架在社会保险管理系统中的应用[D].东北 师范大学硕士学位论文.2005.12-13
[33] Craig Walls,Ryan Breidenbach.Spring in Action中文版[M].北京:人民邮电出 版社.2006.85-86
[34] 陈天河.Hibernate项目开发宝典[M].北京:电子工业出版社.2006.69-70
下载地址:基于Lucene的电子公文检索系统的研究与实现50.Doc
【】最新搜索
基于Lucene的电子公文检索系统的研究与实现
oracle通讯录
IA模块《外国小说欣赏》单元知识复习摘要
2016年南中村防汛抗旱应急预案
公司项目付款审批表
西安外国语大学2010年翻译硕士考研真题及答案
小学美术4.10号(简答题)
2012年六一儿童节活动致辞
最新外研版八年级英语上册Module 3 Sports Un
【英语】Unit 1《Section Two Reading
本文关键词:Lucene全文检索在网络教学平台中的应用研究,由笔耕文化传播整理发布。
本文编号:133161
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/133161.html