当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的企业搜索引擎系统研究与实现

发布时间:2021-08-21 23:39
  当前,随着企业信息化水平逐渐提高,企业信息资源越来越丰富,不仅包括各种数据库信息,而且还包括企业内部存储的大量文本信息。然而,这些文本信息资源分布分散,信息组织形态多样化,迫切的需要进行统一整合和查找。企业内部信息资源搜索引擎系统的建立,对于优化企业信息资源检索显得越来越重要。该文分析了企业搜索引擎的研究现状和存在的不足,并针对企业的电子文档组织管理领域,定制了一个基于Lucene的企业搜索引擎系统,扩展了Lucene的应用功能。着重研究了Lucene内部的文档排序算法,改进了文档排序算法模型,利用层次分析法来确定文档排序的权重。利用K-means聚类算法将搜索结果自动聚类,形成一个类似文件夹的层次结构的搜索结果页面,以便于用户浏览。利用多线程技术实现了索引的分布式管理策略,提高了系统的效率和稳定性。改进后的系统实现了企业中pdf、word、html、text等常见文本格式的文本抽取,将其转化成Lucene所支持的固定索引格式,从而使系统支持各种文本格式的信息检索。最后,通过结合中小企业信息资源平台的具体案例,对实现检索系统中各个功能模块进行了详细的设计和分析,在SSH(Struts,... 

【文章来源】:重庆理工大学重庆市

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于Lucene的企业搜索引擎系统研究与实现


Lucene系统结构图

基于Lucene的企业搜索引擎系统研究与实现


全文检索流程示意图

基于Lucene的企业搜索引擎系统研究与实现


文本分类程序框架

【参考文献】:
期刊论文
[1]企业级搜索引擎的“蓝海”[J]. 安康健.  上海信息化. 2011(06)
[2]基于Lucene的分布式并行索引[J]. 唐华姣,何友全,徐小乐,徐澄.  计算机技术与发展. 2011(02)
[3]江西省三级综合医院竞争力评价指标层次分析与应用[J]. 李丽清,张百栈,周小刚.  中国卫生统计. 2010(05)
[4]基于Lucene的企业搜索引擎研究及应用[J]. 李海丰.  电脑知识与技术. 2009(04)
[5]聚类搜索引擎探究[J]. 黄建年,侯汉清.  图书馆学研究. 2009(01)
[6]中小型企业搜索引擎应用研究[J]. 马颖仪,李利强.  科技信息. 2008(30)
[7]Lucene搜索引擎[J]. 周登朋,谢康林.  计算机工程. 2007(18)
[8]搜索引擎的相关排序算法分析与优化[J]. 蔡国民,王雅琳.  吉首大学学报(自然科学版). 2006(05)
[9]搜索引擎的几种常用排序算法[J]. 常璐,夏祖奇.  图书情报工作. 2003(06)
[10]矩阵最大特征值的近似求法[J]. 叶耀军,王首军,魏磊,朱丽,侯金超.  河南农业大学学报. 2001(S1)

硕士论文
[1]密文全文检索系统的研究与实现[D]. 郭利刚.武汉理工大学 2011
[2]基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D]. 李亮.中国地质大学(北京) 2010
[3]基于RSS的种子信息聚合与抽取模型的研究与实现[D]. 张丽娜.太原理工大学 2010
[4]基于网页内容分析的Web信息抽取技术及其应用[D]. 杨秀丽.河北科技大学 2010
[5]基于lucene的搜索引擎[D]. 张彬.上海师范大学 2010
[6]基于k-means的中文文本聚类算法的研究与实现[D]. 张睿.西北大学 2009
[7]多源文档全文检索系统设计与实现[D]. 方艳芬.华中师范大学 2009
[8]全文检索系统Lucene的分析与扩展[D]. 杨光宇.吉林大学 2009
[9]基于Lucene的电力企业信息全文搜索系统的设计和实现[D]. 何霞.华北电力大学(北京) 2009
[10]基于Lucene的企业搜索引擎[D]. 王波.北京邮电大学 2009



本文编号:3356543

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3356543.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96351***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com