当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Solr的分布式实时全文检索系统的设计与实现

发布时间:2021-07-07 09:14
  伴随着信息技术的快速发展,越来越多的企业建立了自己的信息平台或者网站。当企业内的数据量不断增长时,使用数据库提供的检索功能将严重影响搜索效率,要想使用数据库提供的检索能力实现和搜索引擎(百度、Google)类似的检索效率是不可能的。这就需要使用搜索引擎中使用的全文检索技术,怎样把全文检索应用嵌入在企业的系统中,并提供高效的检索服务是许多企业需要解决的主要问题。企业往往需要系统有较强的性能和扩展能力,而且根据企业对信息的实时性要求较高的特点,因此一个分布式实时全文检索系统可以很好的解决上述问题。本文首先介绍分布式和全文检索系统,并详细说明了全文检索中的核心技术和Lucene (Apache软件基金会的一个子项目),Lucene是一个开放源代码的全文检索引擎工具包。在对Lucene深入了解之后,经过对其相关项目分析,最终选择使用其子项目Solr作为开发分布式实时全文检索系统的核心技术。Solr是Apache软件基金会基于Lucene开发的企业级搜索应用服务器,它所提供的客户端接口可以方便实现分布式应用,作为一个开放源代码的项目和其本身就是为企业应用而开发的,因此非常适合企业使用。在文中详细... 

【文章来源】:云南大学云南省 211工程院校

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
目录
第一章 绪论
    1.1 研究背景及意义
    1.2 论文的主要内容及组织结构
        1.2.1 论文研究内容
        1.2.2 论文结构
第二章 分布式与全文检索系统简介
    2.1 分布式系统简介
    2.2 全文检索系统的含义
    2.3 Lucene简介
        2.3.1 Lucene核心包
        2.3.2 Lucene索引结构
    2.4 全文检索系统的结构
    2.5 全文检索系统的核心技术
        2.5.1 索引技术
        2.5.2 检索技术
        2.5.3 压缩技术
    2.6 检索结果质量的评价
    2.7 分布式全文检索系统简介
    2.8 本章小结
第三章 分布式Solr分析研究
    3.1 Solr简介
    3.2 Solr的系统架构与特点
        3.2.1 Solr的架构
        3.2.2 Solr的特点
    3.3 Solr服务的搭建
        3.3.1 准备工作
        3.3.2 Solr安装
        3.3.3 中文分词组件选择
        3.3.4 Solr中文分词组件添加
        3.3.5 Solr其他配置
    3.4 Solrj客户端编程简介
    3.5 Solr分布式应用研究
    3.6 本章小结
第四章 分布式实时全文检索系统设计
    4.1 系统需求分析
    4.2 系统开发环境与设计目标
    4.3 系统总体设计
    4.4 系统详细设计
        4.4.1 数据库设计
        4.4.2 搜索服务器分布式集群设计
        4.4.3 分布式创建索引设计
        4.4.4 分布式检索设计
    4.5 分布式全文检索系统模型设计
    4.6 本章小结
第五章 分布式实时全文检索系统实现与性能测试
    5.1 分布式实时全文检索系统实现
        5.1.1 数据库访问实现
        5.1.2 分布式创建索引实现
        5.1.3 分布式检索实现
        5.1.4 用户模块实现
    5.2 系统运行截图
    5.3 索引性能测试
        5.3.1 索引吞吐量测试
        5.3.2 多用户并发操作测试
    5.4 搜索时延测试
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
致谢


【参考文献】:
期刊论文
[1]使用Solr为大数据库搭建搜索引擎[J]. 霍庆,刘培植.  软件. 2011(06)
[2]基于分面搜索引擎Solr的机构知识库访问统计[J]. 姚晓娜,祝忠明.  现代图书情报技术. 2011(Z1)
[3]关于Lucene索引工具的性能优化研究[J]. 张春燕,刘发升.  计算机技术与发展. 2011(05)
[4]基于Lucene的分布式并行索引[J]. 唐华姣,何友全,徐小乐,徐澄.  计算机技术与发展. 2011(02)
[5]分布式计算环境下的动态可信度评估模型[J]. 朱友文,黄刘生,陈国良,杨威.  计算机学报. 2011(01)
[6]分布式密文全文检索系统设计及安全性研究[J]. 霍林,潘英花,王力,黄俊文.  广西大学学报(自然科学版). 2010(06)
[7]大规模集群中一种自适应可扩展的RPC超时机制[J]. 钱迎进,肖侬,金士尧.  软件学报. 2010(12)
[8]基于Lucene.Net的分布式全文检索系统[J]. 谭文堂,贺明科,李阜.  计算机应用与软件. 2009(09)
[9]基于内容过滤的个性化搜索算法[J]. 曾春,邢春晓,周立柱.  软件学报. 2003(05)
[10]分布式实时系统的容错调度算法[J]. 秦啸,庞丽萍,韩宗芬,李胜利.  计算机学报. 2000(10)

硕士论文
[1]半结构化网页的信息抽取技术研究[D]. 祝美莲.中国石油大学 2011
[2]主题搜索引擎的关键技术研究与实现[D]. 孙轩.武汉理工大学 2010
[3]基于lucene中文全文检索系统的研究与实现[D]. 刘莺迎.郑州大学 2009
[4]基于Lucene的企业搜索引擎[D]. 王波.北京邮电大学 2009
[5]基于Lucene的搜索引擎的设计和优化[D]. 李沛环.吉林大学 2008
[6]搜索引擎中索引技术研究与实现[D]. 吴宝贵.西安电子科技大学 2008
[7]大规模分布式全文搜索系统的研究与设计[D]. 余锦.清华大学 2004
[8]中文智能搜索引擎[D]. 陈鑫.四川大学 2004



本文编号:3269364

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3269364.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bcdb8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com