企业多业务垂直搜索引擎框架设计与实现
发布时间:2021-01-29 07:06
现今垂直搜索引擎技术已成为企业内部必不可少的技术支撑环节,它帮助企业为用户提供某一特定领域的信息搜索服务。但是随着企业的不断的发展,越来越多的企业从单一业务向综合业务发展,比如做在线旅游的企业会同时拥有景点门票、酒店、旅游线路、机票等业务,不同业务之间的产品特性各不相同,这样也会带来搜索的差异性,那么如何快速搭建不同业务的垂直搜索引擎成为企业内部急需解决的问题。本文基于Lucene设计并实现了一套垂直搜索引擎开发框架,从数据的提取、索引的建立、关键词搜索、数值类字段搜索、统计等功能为企业搭建垂直搜索引擎提供完整的解决方案,降低企业搭建搜索引擎的门槛,使企业内部的开发人员即使不懂搜索引擎的原理也能搭建垂直搜索引擎,同时不用担心性能问题。本人在论文中主要的工作内容和贡献如下:1、提出配置化设计方法。通过实现对不同业务的索引数据源配置、索引字段配置、分词词库配置、纠错词库配置来实现灵活、高效的业务垂直搜索引擎搭建。2、设计实现了优化的数值类字段范围搜索方法。针对数值类型的字段设计一种正排表结构,当搜索条件即包含关键词搜索又包含数值类型范围搜索时,根据关键词搜索得到的文档编号从正排表中获取对应...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
倒排表存储结构
值类字段搜索优化分析ne 设计之初是为了解决大文本类信息的搜索,通过建立倒排索引能,那么如果以搜索文本的解决方案来进行数值类搜索是否也能达类字段搜索可以分为两个场景:单值搜索和范围搜索,如果将数值值搜索与文本搜索没有太大的区别,只要在词典中找到要搜索的排链表即是要搜索的结果。如果进行范围查找呢?我们举个例子来说明,在 Lucene 中的搜索从关键词词典中找到“衬衫”对应的文档编号集合。从价格词典中找到价格范围在 100 到 200 之间的所有价格,以及编号集合。将步骤一和步骤二得到的文档集合做交集处理。
图 2-3 框架总体设计框图Fig.2-3 Design Diagram of the Whole Framework2.4. 索引模块索引模块的目标是将原始信息数据建立成倒排索引,为搜索模块进行高效的搜供数据基础,Lucene 本身实现了索引建立的方法,本框架通过调用 Lucene 的索引方法进行索引的重建,但是为了配置化和多业务垂直搜索,在 Lucene 本身的索引基础上做了二次封装,将索引建立的参数存储在 DB 中,并以界面化的形式提供给者进行配置,同时为了满足多业务的需求,不同的业务有着本身独有的一套配置,干扰。索引模块提供了两种索引更新策略:完全重建策略(Complete Re-Build)和再策略(In-Place)[17]。完全重建策略是指当新的索引文件创建完毕后,老的索引将弃,之后由新的索引对外提供查询服务;再合并策略是指将新增的索引域老的索引进行合并,并对外提供服务。
本文编号:3006486
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
倒排表存储结构
值类字段搜索优化分析ne 设计之初是为了解决大文本类信息的搜索,通过建立倒排索引能,那么如果以搜索文本的解决方案来进行数值类搜索是否也能达类字段搜索可以分为两个场景:单值搜索和范围搜索,如果将数值值搜索与文本搜索没有太大的区别,只要在词典中找到要搜索的排链表即是要搜索的结果。如果进行范围查找呢?我们举个例子来说明,在 Lucene 中的搜索从关键词词典中找到“衬衫”对应的文档编号集合。从价格词典中找到价格范围在 100 到 200 之间的所有价格,以及编号集合。将步骤一和步骤二得到的文档集合做交集处理。
图 2-3 框架总体设计框图Fig.2-3 Design Diagram of the Whole Framework2.4. 索引模块索引模块的目标是将原始信息数据建立成倒排索引,为搜索模块进行高效的搜供数据基础,Lucene 本身实现了索引建立的方法,本框架通过调用 Lucene 的索引方法进行索引的重建,但是为了配置化和多业务垂直搜索,在 Lucene 本身的索引基础上做了二次封装,将索引建立的参数存储在 DB 中,并以界面化的形式提供给者进行配置,同时为了满足多业务的需求,不同的业务有着本身独有的一套配置,干扰。索引模块提供了两种索引更新策略:完全重建策略(Complete Re-Build)和再策略(In-Place)[17]。完全重建策略是指当新的索引文件创建完毕后,老的索引将弃,之后由新的索引对外提供查询服务;再合并策略是指将新增的索引域老的索引进行合并,并对外提供服务。
本文编号:3006486
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3006486.html