基于Solr技术的专利检索系统设计与实现
发布时间:2024-05-19 17:48
随着科学技术的持续发展,专利数据量不断提升,专利数据管理变得越来越困难,企业快速并有效的提取有价值的专利信息也越来越困难。针对以上问题,本课题设计并实现了一款基于Solr技术的专利信息检索系统。主要工作包括以下几方面:首先,针对专利信息检索系统的技术实现的复杂性,主要采用Solr全文搜索引擎技术和IK Analyzer分词器插件实现本系统检索功能。Solr通过对Lucence底层封装,实现倒排索引功能,通过使用IK Analyzer自定义分词器插件,检索词或短语更容易查找专利文档,并且Solr搜索技术成熟稳定,支持多种数据格式,对专利数据的格式多样性支持性更好。其次,针对专利信息检索系统的检索速度方面的优化,系统通过硬件和系统架构方面进行优化,保证检索速度。硬件方面,对服务器内存和CPU配置进行升级,并将传统硬盘替换成SSD硬盘提升索引读写速度。系统架构方面,通过对Solr基础单元Field进行合并,加权重等优化,实现检索速度提升。然后,针对专利信息检索系统的高可用性,采用基于SolrCloud和ZooKeeper的分布式搜索方案,并对Solr索引进行集群部署,保证了检索系统的高可用性...
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
本文编号:3978242
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
图2-1用户检索流程
具体要点如下:1)系统中包含语法储存库,与词汇库相结合后,对句子中的词汇进行分析2)包含词汇储存库,将使用较为广泛的词汇搭配方式、使用频率较高的词库中;3)具有较宽的词汇量,设置专业词汇库,从而实现专业文献的搜索;4)若句子无法进行分词,可以将句子中的每个字作为词汇进行分....
图2-2全文检索系统架构图
了该搜索方式。排名查询RankedQuery的使用范围较大,通过向量空间模型算法、概率模型算法等对文档、关键词之间的相关度进行计算,同时依据相关度的高低进行搜索结果的排列,将相关度排名的前一百条消息返回给用户,用户可以设置消息返回数量。2.2.3全文检索全文数据库是全文检....
图2-3全文检索流程图
用于全文搜索和搜索。使用Lucene实现全文搜索的开发,其能够提供具有强大功能的应用程序界面[6]。Lucene属于Java中的免费开源工具,发展较为成熟,是目前Java中最受欢迎的工具。虽然信息检索库与搜索引擎有关,但不应混淆[9]。2.3.1Lucene实现....
图2-4词典结构图
图2-4词典结构图要。词典结构有很多种,每种都有各自的优缺点组,通过二进制搜索方法检索数据,并且有哈希,但需要更高的性能来支持TB级数据的倒排索图列出了一些常用字典的优缺点。如表2-1所示表2-1数据结构对比表优缺点实现简单,但性能差性能高,内存消耗大占用内存....
本文编号:3978242
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3978242.html