支持布尔查询的桌面搜索系统的设计与实现
发布时间:2018-05-25 22:41
本文选题:Lucene + 查询 ; 参考:《天津工业大学》2017年硕士论文
【摘要】:由于互联网技术和计算机的技术的快速进步,互联网上的数据和硬件上进行存储的信息都有明显的增加。在如此大量的信息、数据中准确、及时的查找到有效的信息是用户急需解决的难题,也是目前信息搜索领域内研究的热门。所以信息检索技术成为了用户进行桌面搜索引擎的重要应用,桌面搜索也成为了集成信息检索技术的代表。本文在开源代码Lucene的基础上构建桌面搜索引擎,应用Lucene创建索引和搜索索引的原理和方法,研究分析器的分词效果,建立支持布尔查询的桌面搜索模型,并设计模型架构。说明了 Lucene的使用方式、设计框架、结构特点及核心类。详细说明使用Lucene对文档进行索引和搜索的过程。结合系统的功能需求,提出了具体的实现方案。应用C#语言编写基于布尔查询的桌面搜索系统,实现布尔检索模型,为待搜索的文件编制索引,把数据信息进行文本转换,对文本信息进行分析、并对分析得出的结果进行索引。计算每个包含索引项的文档向量和查询向量的相似度得分,利用得分值倒序排列查询结果从而实现对现有数据的格式(例如ppt、pdf、doc、excel等)信息稳定进行检索。
[Abstract]:With the rapid development of Internet technology and computer technology, the data on the Internet and the information stored on the hardware have increased obviously. In such a large amount of information, data accurate, timely to find effective information is a problem that users urgently need to solve, but also a hot research in the field of information search. So information retrieval technology has become an important application of desktop search engine and desktop search technology has become the representative of integrated information retrieval technology. This paper constructs desktop search engine based on open source code Lucene, applies the principle and method of Lucene to create index and search index, studies the effect of word segmentation of analyzer, establishes desktop search model supporting Boolean query, and designs the model architecture. The use of Lucene, design framework, structural characteristics and core classes are described. Detailed description of the use of Lucene document indexing and search process. Combined with the functional requirements of the system, a specific implementation scheme is put forward. The desktop search system based on Boolean query is written by C # language, the Boolean retrieval model is realized, the files to be searched are indexed, the data information is converted into text, and the text information is analyzed. The results of the analysis are indexed. The similarity score of each document vector and query vector containing index items is calculated, and the query results are arranged in reverse order by using the obtained value, so that the information of the existing data format (such as pptPtr / PDF / doco Excel etc.) can be retrieved stably.
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 吴丹;毕仁敏;;用户移动搜索与桌面搜索行为对比研究[J];现代图书情报技术;2016年02期
2 陆峰;;中国搜索引擎十五年:从信息到服务的连接[J];互联网经济;2015年11期
3 陆原;;中国搜索引擎行业发展与展望[J];IT经理世界;2014年20期
4 赵喜燕;李玉坤;刘经雨;肖迎元;冯美玲;;基于同义词关系的个人文件搜索方法[J];小型微型计算机系统;2014年09期
5 王文超;亢焕楠;;基于安卓系统的桌面搜索引擎的设计研究[J];电子技术与软件工程;2014年16期
6 刘艳;杨奇龙;蔡燕冬;;FileFinder:桌面搜索引擎的设计与实现[J];计算机工程与设计;2013年07期
7 贾默;陈梅;;集成桌面搜索引擎的内容检测系统设计[J];计算机工程与设计;2013年02期
8 周强;乐小虬;李曦;;JNI技术在桌面搜索工具中的应用[J];计算机技术与发展;2013年02期
9 张禾;;新型桌面搜索关键技术的研究与实现[J];硅谷;2012年21期
10 聂妮;胡小克;杨志勇;;lucene桌面中文搜索引擎设计思路[J];科技风;2012年11期
,本文编号:1934920
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1934920.html