基于solr搜索引擎的在线问答搜索系统的设计与实现
发布时间:2017-03-28 14:14
本文关键词:基于solr搜索引擎的在线问答搜索系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的不断发展,互联网应用也越来越多,用户通过互联网可以获得更多的信息。用户量和用户问题数量的不断增量,一方面用户搜索服务的效率和正确率得不到保障,这个极大的影响了用户的使用体验。另一方面在用户问答数据量的不断膨胀的情况下,公司对于数据的存储管理也越来越困难。因此如何有效的对用户问答数据进行了管理和搜索已经成为了互联网应用急需解决的问题,特别是对在线问答系统这样的应用来说,搜索服务的效率和正确率极大的影响着它的生存。本文正是在这样的背景下提出了基于solr的搜索服务解决方法,为在线问答服务提供搜索服务。本文主要的工作内容如下:首先对搜索引擎技术进行了详细的分析和研究。分析了全文搜索技术的流程和组件,对开源的搜索引擎进行了详细的分析和比较,最终为本系统选择了开源的公司级的搜索引擎solr。接着对Lucene和solr搜索引擎进行了详细的分析,对搜索过程、索引过程和索引存储结构有了非常深入的了解。对目前比较流行的中文分词器进行了分词对比,通过对比分析后选择了开源热度比较的中文分词器Jcseg,并对它进行了一定的配置和性能优化。最后对在线问答搜索系统进行了详细的需求分析,在确定需求的基础上,对系统进行了设计,主要包括系统流程图的清理和系统的架构设计。在此基础上,将系统划分为四大模块:信息收集模块、文档解析模块、索引模块和搜索模块。然后分别对这四个模块进行了详细的设计、实现和测试。本文基于solr的在线问答搜索服务极大的提高了用户问答信息的存储和管理效率,并且通过这个系统极大的满足了公司在搜索服务上的需求。
【关键词】:solr 信息收集 中文分词 Jcseg 索引
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TP391.3
【目录】:
- 摘要5-6
- Abstract6-12
- 第1章 序言12-17
- 1.1 课题背景12-13
- 1.2 选题目的与意义13
- 1.3 国内外研究现状13-15
- 1.3.1 搜索引擎的发展现状13-14
- 1.3.2 中文分词的发展现状14-15
- 1.4 研究内容15
- 1.5 论文组织结构15-17
- 第2章 搜索引擎的研究17-32
- 2.1 全文检索现状17-18
- 2.2 lucene工具包18-22
- 2.2.1 lucene搜索流程18-19
- 2.2.2 lucene包结构19-20
- 2.2.3 lucene索引结构20-22
- 2.3 solr平台22-25
- 2.3.1 solr搜索引擎服务器22-24
- 2.3.2 solr体系结构24-25
- 2.4 中文分词算法25-28
- 2.4.1 基于字符串匹配的分词算法26-28
- 2.4.2 基于统计的分词算法28
- 2.4.3 基于理解的分词算法28
- 2.5 中文分词器的比较28-31
- 2.6 本章小结31-32
- 第3章 系统需求分析32-38
- 3.1 系统的建设目标32-33
- 3.2 系统可行性分析33
- 3.2.1 需求可行性分析33
- 3.2.2 技术可行性分析33
- 3.3 功能需求分析33-35
- 3.4 系统的流程图35-36
- 3.5 非功能性需求分析36
- 3.6 本章小结36-38
- 第4章 在线问答搜索系统的设计与实现38-58
- 4.1 系统总体架构38-39
- 4.2 Jcseg分词器39-41
- 4.2.1 Jcseg分词器的软件结构39-40
- 4.2.2 Jcseg分词器在solr上的配置40
- 4.2.3 Jcseg分词器的字典配置40
- 4.2.4 分词模式的配置40-41
- 4.3 系统的模块设计和实现41-56
- 4.3.1 信息收集模块41-46
- 4.3.2 文档解析模块46-48
- 4.3.3 索引模块48-54
- 4.3.4 搜索模块54-56
- 4.4 本章小结56-58
- 第5章 在线问答搜索系统的测试58-68
- 5.1 测试环境搭建58-60
- 5.1.1 tomcat安装和配置58-59
- 5.1.2 通过tomcat部署solr59-60
- 5.2 jcseg分词器的测试60-61
- 5.3 功能测试61-67
- 5.3.1 分词效果测试61-63
- 5.3.2 索引建立测试63-64
- 5.3.3 搜索服务测试64-67
- 5.4 本章小结67-68
- 结论68-70
- 总结68-69
- 展望69-70
- 参考文献70-73
- 致谢73
【参考文献】
中国期刊全文数据库 前10条
1 姚晓娜;祝忠明;;基于分面搜索引擎Solr的机构知识库访问统计[J];现代图书情报技术;2011年Z1期
2 唐华姣;何友全;徐小乐;徐澄;;基于Lucene的分布式并行索引[J];计算机技术与发展;2011年02期
3 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
4 徐海燕;刘勇;;搜索引擎的工作原理及发展趋势[J];科技创新导报;2010年11期
5 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
6 刘杰;;基于改进的隐马尔科夫模型的中文命名实体识别算法[J];太原师范学院学报(自然科学版);2009年01期
7 余翠莉;徐军英;;Yahoo和Google搜索功能之比较[J];农业图书情报学刊;2007年06期
8 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
9 赵仲孟,戚晓光,沈钧毅;分布式搜索引擎系统中协作检索机制的研究[J];微电子学与计算机;2005年05期
10 王琼;搜索引擎的四大发展趋势[J];农业网络信息;2005年03期
本文关键词:基于solr搜索引擎的在线问答搜索系统的设计与实现,,由笔耕文化传播整理发布。
本文编号:272426
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/272426.html