基于Lucene的站内检索系统的设计与优化
本文关键词:基于Lucene的站内检索系统的设计与优化,由笔耕文化传播整理发布。
【摘要】:伴随着信息技术与互联网技术的发展,接踵而来的则是信息量的爆炸式增长,人类社会已全面进入信息化的时代。人们在享受互联网进步带来的便利的同时,如何在海量信息数据中迅速找到符合用户需求的信息,成为了信息检索的关键技术。面对互联网内容的不断产生、更新或者消失,搜索引擎技术的诞生打破了互联网复杂的局面,为用户找到所需求的信息提供了有力的手段。Lucene作为开源搜索架构,具有开放、面向对象等优点,通过采用Lucene作为核心,从而构建出适用于不同环境下的独立的检索系统。本文通过对Lucene技术框架进行分析和研究,阐述了基于全文检索系统的检索方法及其基本原理,结合目前网站信息多样化的特点,分析了基于关系型数据库全文检索技术的不足,进而开发出一套实用性强、通用性高的站内全文检索系统,解决了网络用户的站内搜索需求。论文的工作和成果主要体现在以下几个方面:(1)深入分析了全文检索引擎Lucene的结构及原理,通过对Lucene的分词算法原理进行研究,结合中文语义设计并改进了中文分词器,构建了同义词词库引擎以实现自定义同义词检索功能。(2)针对Lucene只能对文本类型数据进行检索的特点,提出一种新的文本解析方法,该方法采用Tika文本解析器对信息进行抽取,用以建立索引,适用于各种类型文档。避免了针对不同文档使用多种解析器的复杂性。(3)设计了一个站内留言发布系统,用于对检索系统进行测试,该留言发布系统具有较为完善的内容发布机制,通过结合数据库的设计和检索系统的优化改进,实现了站内内容的搜索。(4)设计并实现搜索模块的扩展功能,如高亮搜索、近实时搜索和全文检索服务器Solr。近实时搜索的引入,使得系统中的内容能更快地被索引与搜索,减少了系统提交索引操作时所产生的开销,而高亮搜索和Solr的应用则提高了系统的稳定性和用户体验性。
【关键词】:全文检索 中文分词 文本解析器 近实时搜索 Solr
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-16
- 1.1 课题研究背景及意义10-11
- 1.2 国内外研究现状11-14
- 1.2.1 站内搜索研究现状11-12
- 1.2.2 全文检索研究现状12-14
- 1.3 主要研究工作14
- 1.4 论文组织结构与章节安排14-15
- 1.5 本章小结15-16
- 第2章 Lucene全文检索相关技术16-30
- 2.1 全文检索的原理概述16-17
- 2.2 倒排索引关键技术17-21
- 2.2.1 倒排索引算法概述17-19
- 2.2.2 倒排索引的分词技术19
- 2.2.3 倒排索引文件的压缩技术19-21
- 2.3 索引的建立21-22
- 2.4 基于Lucene的全文检索框架22-25
- 2.4.1 Lucene简介23
- 2.4.2 Lucene的优点23-24
- 2.4.3 系统架构与数据流分析24-25
- 2.5 索引的搜索25-29
- 2.5.1 检索模型25-26
- 2.5.2 索引搜索过程26-29
- 2.6 本章小结29-30
- 第3章 站内全文检索系统关键技术研究30-44
- 3.1 中文分词技术30-34
- 3.1.1 中文分词算法30-33
- 3.1.2 分词器比较33-34
- 3.2 文本解析工具34-39
- 3.2.1 传统文本解析工具35-38
- 3.2.2 多类型文本解析器Tika38-39
- 3.3 索引查看工具Luke39-40
- 3.4 搜索应用服务器Solr40-43
- 3.4.1 Solr简介40-41
- 3.4.2 Solr特点及优势41-42
- 3.4.3 SolrJ客户端42-43
- 3.5 本章小结43-44
- 第4章 系统分析与概要设计44-61
- 4.1 系统总体设计44-47
- 4.1.1 系统设计原则44
- 4.1.2 系统需求分析44-46
- 4.1.3 系统架构设计46-47
- 4.2 中文分词器的设计47-51
- 4.2.1 分词器的结构属性48-49
- 4.2.2 分词器的设计思路49-51
- 4.3 索引数据库的设计51-53
- 4.4 高亮搜索模块设计53-55
- 4.5 近实时搜索模块设计55-56
- 4.6 Solr服务器的配置56-60
- 4.6.1 Tomcat的介绍与配置56-58
- 4.6.2 在Tomcat上部署并运行Solr58-60
- 4.7 本章小结60-61
- 第5章 系统的实现及性能测试61-75
- 5.1 系统开发环境61
- 5.2 系统模块实现和测试61-71
- 5.2.1 中文分词模块实现与测试分析62-63
- 5.2.2 数据库模块的实现与查看63-66
- 5.2.3 高亮搜索模块的实现与测试66-69
- 5.2.4 近实时搜索的实现与测试69-70
- 5.2.5 系统服务器部署实现与测试70-71
- 5.3 系统运行流程分析71-72
- 5.4 系统运行测试72-74
- 5.5 本章小结74-75
- 第6章 总结与展望75-77
- 6.1 论文工作总结75-76
- 6.2 研究工作展望76-77
- 参考文献77-80
- 致谢80-81
- 攻读学位期间参加的科研项目和成果81
【相似文献】
中国期刊全文数据库 前10条
1 黄泽霖;;纵横交错,点面结合,全面构筑年鉴六大检索系统[J];年鉴信息与研究;2006年03期
2 李明;;中科院声学所推出基于哼唱旋律或口说歌词的歌曲检索系统[J];应用声学;2006年04期
3 ;国际常用六大著名检索系统[J];温州职业技术学院学报;2009年02期
4 ;国际常用六大著名检索系统[J];昆明冶金高等专科学校学报;2010年03期
5 李华;;浅析检索系统中错误数据的控制[J];黑龙江科技信息;2011年05期
6 臧国全;;后控词表检索系统研究[J];情报科学;1988年02期
7 本刊编辑部;《物理》已成为世界六大检索系统的“座上客”[J];物理;1991年07期
8 ;新华社建成并开放新闻资料检索系统[J];视听界;1992年06期
9 马文筠;图书馆公共检索系统初探[J];现代图书情报技术;2000年S2期
10 蒋国华;气象图像产品的屏幕截取和检索系统的编程及使用[J];广东气象;2002年02期
中国重要会议论文全文数据库 前10条
1 杨光复;;论年鉴的检索系统和信息开发[A];创新与发展——云南省年鉴论文选(续集)[C];2006年
2 许洁萍;袁斌;刘怡;;音乐检索系统中用户哼唱旋律错误的研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 张刚;孙健;丁国栋;米嘉;王斌;;海量数据的索引与检索系统[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
4 顾寄南;陈晓燕;;检索系统专业化和智能化的研究与实现[A];走中国特色农业机械化道路——中国农业机械学会2008年学术年会论文集(下册)[C];2008年
5 徐英进;王愈;蔡锐;蔡莲红;;一种基于“乐纹”的海量音乐检索系统[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
6 刘超彪;宋鸿陟;司国东;傅熠;;应用于移动学习的树木检索系统[A];第八届和谐人机环境联合学术会议(HHME2012)论文集CHCI[C];2012年
7 王宁;范志新;胡运发;;虚拟图书馆检索系统的设计与实现[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
8 高鹏;梁家恩;王晓瑞;徐波;;一个面向海量视音频应用的快速关键音检索系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
10 张浩;黄厚宽;;基于OAI协议的统一检索系统研究与实现[A];首届中国CAE工程分析技术年会暨2005全国计算机辅助工程(CAE)技术与应用高级研讨会论文集[C];2005年
中国重要报纸全文数据库 前9条
1 王津东 李会霞;南京市江宁区 法律法规检索系统推进工作信息化[N];中国社会报;2008年
2 杨申武;工程建设标准强制性条文检索系统即将开通运行[N];中国建设报;2012年
3 本报记者 汪建根;想不起歌名,你就哼一声[N];中国文化报;2011年
4 葛涛;人文社科期刊怎样进入国际权威领域[N];中华读书报;2003年
5 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
6 柯文;找音乐?会哼几句就行[N];人民日报;2006年
7 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
8 ;让法治细胞在网络上繁衍[N];人民法院报;2002年
9 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;实验与实用系统[N];计算机世界;2003年
中国博士学位论文全文数据库 前2条
1 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
2 张毅波;中文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
中国硕士学位论文全文数据库 前10条
1 陈志敏;联邦检索系统的关键技术研究与实现[D];华南理工大学;2015年
2 周翔;基于E2LSH的音乐哼唱检索系统的研究[D];电子科技大学;2014年
3 吴莉莉;基于内容的多媒体哼唱检索系统软件研究与设计[D];电子科技大学;2014年
4 赵垠兰;基于xPlore的统一资源检索系统的设计与实现[D];南京大学;2014年
5 曹清然;电台音乐检索系统设计与实现[D];电子科技大学;2015年
6 高巍;异构数据联合检索系统的设计与实现[D];东北大学;2013年
7 魏宇嵩;基于Microsoft Azure的影片目录检索系统的设计与实现[D];西安电子科技大学;2015年
8 吴娟;基于数字指纹的音乐哼唱检索系统的设计与实现[D];湖南师范大学;2015年
9 颜培园;乐搜资源检索系统的设计与实现[D];山东大学;2015年
10 罗惠峰;基于Lucene的站内检索系统的设计与优化[D];浙江工业大学;2015年
本文关键词:基于Lucene的站内检索系统的设计与优化,,由笔耕文化传播整理发布。
本文编号:349758
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/349758.html