基于Lucene的地名数据库快速检索系统

发布时间：2018-02-25 05:21

本文关键词： Lucene 地名全文检索数据库中文分词相关度排序　出处：《计算机应用研究》2017年06期 　论文类型：期刊论文

【摘要】：针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
[Abstract]:In order to solve the problem of inefficient retrieval of mass geographical names data in traditional relational database, this paper proposes a rapid retrieval method of geographical names database combining Pangu participle and Lucene full-text retrieval. Firstly, a toponymic data table structure is designed. This paper compares the Chinese word partitioning performance of several common open source word partitioning devices, and selects the Pangea Chinese word particifier with excellent performance to realize the effective word segmentation of Chinese place names by expanding its dictionary. Secondly, Memory index and multithread parallel processing technology are used to improve the efficiency of creating inverted index in Lucene, and according to the attribute of place name category and display priority, the ranking strategy of relevance degree of retrieval results is optimized. Finally, A Web toponymic retrieval system with fast search and map location display is developed. Its retrieval performance is tested with 5 million real toponymic data. The average query time is less than 1 s, which is 15 times higher than the fuzzy retrieval efficiency of MySQL database. The matching results are also more accurate and can provide efficient and flexible public retrieval services for mass geographical names.
【作者单位】：华中师范大学国家文化产业研究中心;
【基金】：国家科技支撑计划资助项目(2012BAH83F00)
【分类号】：TP311.13;TP391.3

【参考文献】

相关期刊论文前10条

1 任树怀;;LUCENE搜索算法剖析及优化研究[J];图书馆杂志;2014年12期

2 陈德权;;GIS地名搜索系统的关键技术设计与实现[J];测绘与空间地理信息;2013年08期

3 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期

4 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期

5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期

6 李敏;黄凯;;一个多线程全文检索系统的构建[J];长江大学学报(自然科学版)理工卷;2010年03期

7 刘海珍;姬炜;李志刚;王建春;;国家地名数据库管理系统的设计与实现[J];中国地名;2010年09期

8 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期

9 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期

10 吴青;夏红霞;赵广辉;刘春燕;;基于Lucene全文检索引擎的应用与改进[J];武汉理工大学学报;2008年07期

【共引文献】

相关期刊论文前10条

1 许宇华;黄倩云;;统一智能搜索处理技术的研究与应用[J];自动化与仪器仪表;2017年05期

2 侯天峰;陆亚祥;;一种全文检索系统的研究与实现[J];微型电脑应用;2017年05期

3 蒋万伟;刘娟;;基于条件随机场的词结构分析方法[J];武汉大学学报(理学版);2017年03期

4 陈亚东;洪宇;王潇斌;杨雪蓉;姚建民;朱巧明;;融合多模型与高置信度词典的事件线索检测[J];北京大学学报(自然科学版);2017年03期

5 李全;林松;田俊;刘兴红;;面向MOOC的垂直搜索引擎[J];计算机与现代化;2017年04期

6 印奇;李青;黄鹏;;基于Solr的飞机故障异构信息检索系统设计[J];航空科学技术;2017年04期

7 陈杨华;张少林;;图像自相关特征识别的算法改进[J];浙江科技学院学报;2017年01期

8 李聪颖;王瑞刚;于金良;;大数据分布式全文检索系统的设计与实现[J];计算机与数字工程;2016年12期

9 李爱勤;;多级索引驱动的地名信息检索方法[J];测绘科学;2017年04期

10 余遵成;;近十年国内索引方法与技术研究计量分析[J];图书情报论坛;2016年05期

【二级参考文献】

相关期刊论文前10条

1 白培发;王成良;徐玲;;一种融合词语位置特征的Lucene相似度评分算法[J];计算机工程与应用;2014年02期

2 窦天芳;姜爱蓉;;资源发现系统功能分析及应用前景[J];图书情报工作;2012年07期

3 夏兰芳;毛炜青;郭功举;;上海城市地理编码系统应用与研究[J];测绘通报;2012年01期

4 钱敏;顾国强;鲁明;;用于地址(地理位置)匹配的关键路径法[J];计算机应用与软件;2012年01期

5 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期

6 黄承慧;印鉴;陆寄远;;一种改进的Lucene语义相似度检索算法[J];中山大学学报(自然科学版);2011年02期

7 杨晓军;王一莉;;一种GIS的中文分词算法研究[J];微电子学与计算机;2010年07期

8 庄新妍;;计算机中文分词技术的应用[J];呼伦贝尔学院学报;2010年03期

9 王欢;孙瑞志;;基于领域本体和Lucene的语义检索系统研究[J];计算机应用;2010年06期

10 谭文堂;贺明科;李阜;;基于Lucene.Net的分布式全文检索系统[J];计算机应用与软件;2009年09期

【相似文献】

相关期刊论文前10条

1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期

2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期

3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期

4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期

5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期

6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期

7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期

8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期

9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期

10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期