基于Lucene的地名数据库快速检索系统
本文关键词: Lucene 地名 全文检索 数据库 中文分词 相关度排序 出处:《计算机应用研究》2017年06期 论文类型:期刊论文
【摘要】:针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
[Abstract]:In order to solve the problem of inefficient retrieval of mass geographical names data in traditional relational database, this paper proposes a rapid retrieval method of geographical names database combining Pangu participle and Lucene full-text retrieval. Firstly, a toponymic data table structure is designed. This paper compares the Chinese word partitioning performance of several common open source word partitioning devices, and selects the Pangea Chinese word particifier with excellent performance to realize the effective word segmentation of Chinese place names by expanding its dictionary. Secondly, Memory index and multithread parallel processing technology are used to improve the efficiency of creating inverted index in Lucene, and according to the attribute of place name category and display priority, the ranking strategy of relevance degree of retrieval results is optimized. Finally, A Web toponymic retrieval system with fast search and map location display is developed. Its retrieval performance is tested with 5 million real toponymic data. The average query time is less than 1 s, which is 15 times higher than the fuzzy retrieval efficiency of MySQL database. The matching results are also more accurate and can provide efficient and flexible public retrieval services for mass geographical names.
【作者单位】: 华中师范大学国家文化产业研究中心;
【基金】:国家科技支撑计划资助项目(2012BAH83F00)
【分类号】:TP311.13;TP391.3
【参考文献】
相关期刊论文 前10条
1 任树怀;;LUCENE搜索算法剖析及优化研究[J];图书馆杂志;2014年12期
2 陈德权;;GIS地名搜索系统的关键技术设计与实现[J];测绘与空间地理信息;2013年08期
3 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期
4 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期
5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期
6 李敏;黄凯;;一个多线程全文检索系统的构建[J];长江大学学报(自然科学版)理工卷;2010年03期
7 刘海珍;姬炜;李志刚;王建春;;国家地名数据库管理系统的设计与实现[J];中国地名;2010年09期
8 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期
9 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
10 吴青;夏红霞;赵广辉;刘春燕;;基于Lucene全文检索引擎的应用与改进[J];武汉理工大学学报;2008年07期
【共引文献】
相关期刊论文 前10条
1 许宇华;黄倩云;;统一智能搜索处理技术的研究与应用[J];自动化与仪器仪表;2017年05期
2 侯天峰;陆亚祥;;一种全文检索系统的研究与实现[J];微型电脑应用;2017年05期
3 蒋万伟;刘娟;;基于条件随机场的词结构分析方法[J];武汉大学学报(理学版);2017年03期
4 陈亚东;洪宇;王潇斌;杨雪蓉;姚建民;朱巧明;;融合多模型与高置信度词典的事件线索检测[J];北京大学学报(自然科学版);2017年03期
5 李全;林松;田俊;刘兴红;;面向MOOC的垂直搜索引擎[J];计算机与现代化;2017年04期
6 印奇;李青;黄鹏;;基于Solr的飞机故障异构信息检索系统设计[J];航空科学技术;2017年04期
7 陈杨华;张少林;;图像自相关特征识别的算法改进[J];浙江科技学院学报;2017年01期
8 李聪颖;王瑞刚;于金良;;大数据分布式全文检索系统的设计与实现[J];计算机与数字工程;2016年12期
9 李爱勤;;多级索引驱动的地名信息检索方法[J];测绘科学;2017年04期
10 余遵成;;近十年国内索引方法与技术研究计量分析[J];图书情报论坛;2016年05期
【二级参考文献】
相关期刊论文 前10条
1 白培发;王成良;徐玲;;一种融合词语位置特征的Lucene相似度评分算法[J];计算机工程与应用;2014年02期
2 窦天芳;姜爱蓉;;资源发现系统功能分析及应用前景[J];图书情报工作;2012年07期
3 夏兰芳;毛炜青;郭功举;;上海城市地理编码系统应用与研究[J];测绘通报;2012年01期
4 钱敏;顾国强;鲁明;;用于地址(地理位置)匹配的关键路径法[J];计算机应用与软件;2012年01期
5 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期
6 黄承慧;印鉴;陆寄远;;一种改进的Lucene语义相似度检索算法[J];中山大学学报(自然科学版);2011年02期
7 杨晓军;王一莉;;一种GIS的中文分词算法研究[J];微电子学与计算机;2010年07期
8 庄新妍;;计算机中文分词技术的应用[J];呼伦贝尔学院学报;2010年03期
9 王欢;孙瑞志;;基于领域本体和Lucene的语义检索系统研究[J];计算机应用;2010年06期
10 谭文堂;贺明科;李阜;;基于Lucene.Net的分布式全文检索系统[J];计算机应用与软件;2009年09期
【相似文献】
相关期刊论文 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年
7 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
8 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
9 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
10 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
,本文编号:1533165
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1533165.html