广西农业信息地理匹配引擎设计与实现
发布时间:2021-10-20 00:27
【目的】研究高并发、大流量农业信息地理匹配引擎,改进其算法,解决广西区内壮语地名匹配问题,实现农业信息的自动匹配与空间定位,以满足农业大数据平台高并发、大流量的地理匹配需求。。【方法】通过改造开源的Solr全文搜索引擎,结合广西地名中的少数民族语言特点,扩充地名词典、设计数据组织方式与逆向分词算法、改进TF-IDF算法。【结果】在改进方法的基础上设计并实现了农业地理信息地理匹配引擎。经过第三方15484条数据测试,能够准确切分壮语地名,引擎在500并发下仍具有良好的响应速度,匹配准确率达98.43%。地理匹配引擎目前已应用到糖业发展大数据平台中,并取得了良好的效果。【建议】针对测试中出现的问题,建议在下一步工作中扩充并完善词库内容、增强语义推理能力、研究基于空间语义的定位算法,提高广西农业信息的定位精度。
【文章来源】:南方农业学报. 2019,50(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
地理匹配引擎在广西糖业发展大数据平台的应用效果
?加油站那/坡/农业局改进分词算法Improvedwordsegmentationalgorithm广西/凤糖/生化/股份有限公司南宁市/良庆区/那马镇/新华路/168/号广西区/农业机械研究院科园东六路/1/号钦州市/康熙岭/农机/加油站那坡/农业局表1地名地址分词对比样例Table1Samplecomparisonofplacenamesandaddressmatching2.3匹配准确率分析匹配准确率包含匹配准确度和空间精度两个方面,其中,匹配准确度是指关键词与地名在文本上是否正确匹配,空间精度是指匹配后的空间定位精度是否与关键词的地理位置相一致。地理匹配流程如图6所示。匹配准确率是地理匹配引擎的重要指标,由于本测试数据来源于人工填报,在填报过程中对名址的书写未进行标准化约束,部分信息中的地名不规范或存在错别字。测试过程中对比了传统的SQL语句匹配法、Solr默认分词搜索方法与改进后的算法,从表2可看出,经过改进后的匹配算法准确率最高,正确匹配15241条,匹配成功率达98.43%。243条数据无法匹配和错误匹配,其中,错误匹配87条,占比0.56%,主要是个别地名地址数据在录入阶段出现文字错误,导致分词存在歧义,如“大明纸业有限公司”被错误记录为“大名纸业有限公司”;无法匹配的数据156条,占比1.01%,主要是存在地名数据库中没有的新地名,说明在现有搜索匹配算法下,制约搜索准确率的主要原因是地名库中数据的丰富程度。在空间匹配精度方面,13704条地名地址能够实现准确定位,1537条数据仅能实现大致定位。经过具体分析,不能准确定位的数据主要集中在农村地区,具体原因是大多数农村地址缺乏具体的门牌编号,地址的最小单元一般为自然村或屯,导致定位无法精确到具体空间位置。图6地理匹配流程Fig.6Geographicalmatchingflowchart朱明等:广西
【参考文献】:
期刊论文
[1]基于改进的TF-IDF算法及共现词的主题词抽取算法[J]. 公冶小燕,林培光,任威隆,张晨,张春云. 南京大学学报(自然科学). 2017(06)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]一种基于多特征因子改进的中文文本分类算法[J]. 叶敏,汤世平,牛振东. 中文信息学报. 2017(04)
[4]基于Lucene的地名管理模型设计与实现[J]. 徐道柱,焦洋洋,苏雪梅. 测绘与空间地理信息. 2017(03)
[5]一种改进的Lucene算法及在空间数据融合中的应用[J]. 陈利燕,林鸿,张新长. 测绘通报. 2016(10)
[6]大规模地名本体数据库系统的建构技术与方法[J]. 俞敬松,王惠临,杨洁. 图书情报工作. 2016(08)
[7]基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现[J]. 柴洁. 城市勘测. 2014(06)
[8]基于Lucene和PostGIS的地图搜索研究[J]. 梁明,罗荣,胡最. 测绘通报. 2014(11)
[9]基于搜索引擎技术的地名地址定制查询研究[J]. 邹崇尧,朱贵方,赵双明. 测绘通报. 2014(08)
[10]顾及通名语义的汉语地名相似度匹配算法[J]. 程钢,卢小平. 测绘学报. 2014(04)
本文编号:3445889
【文章来源】:南方农业学报. 2019,50(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
地理匹配引擎在广西糖业发展大数据平台的应用效果
?加油站那/坡/农业局改进分词算法Improvedwordsegmentationalgorithm广西/凤糖/生化/股份有限公司南宁市/良庆区/那马镇/新华路/168/号广西区/农业机械研究院科园东六路/1/号钦州市/康熙岭/农机/加油站那坡/农业局表1地名地址分词对比样例Table1Samplecomparisonofplacenamesandaddressmatching2.3匹配准确率分析匹配准确率包含匹配准确度和空间精度两个方面,其中,匹配准确度是指关键词与地名在文本上是否正确匹配,空间精度是指匹配后的空间定位精度是否与关键词的地理位置相一致。地理匹配流程如图6所示。匹配准确率是地理匹配引擎的重要指标,由于本测试数据来源于人工填报,在填报过程中对名址的书写未进行标准化约束,部分信息中的地名不规范或存在错别字。测试过程中对比了传统的SQL语句匹配法、Solr默认分词搜索方法与改进后的算法,从表2可看出,经过改进后的匹配算法准确率最高,正确匹配15241条,匹配成功率达98.43%。243条数据无法匹配和错误匹配,其中,错误匹配87条,占比0.56%,主要是个别地名地址数据在录入阶段出现文字错误,导致分词存在歧义,如“大明纸业有限公司”被错误记录为“大名纸业有限公司”;无法匹配的数据156条,占比1.01%,主要是存在地名数据库中没有的新地名,说明在现有搜索匹配算法下,制约搜索准确率的主要原因是地名库中数据的丰富程度。在空间匹配精度方面,13704条地名地址能够实现准确定位,1537条数据仅能实现大致定位。经过具体分析,不能准确定位的数据主要集中在农村地区,具体原因是大多数农村地址缺乏具体的门牌编号,地址的最小单元一般为自然村或屯,导致定位无法精确到具体空间位置。图6地理匹配流程Fig.6Geographicalmatchingflowchart朱明等:广西
【参考文献】:
期刊论文
[1]基于改进的TF-IDF算法及共现词的主题词抽取算法[J]. 公冶小燕,林培光,任威隆,张晨,张春云. 南京大学学报(自然科学). 2017(06)
[2]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)
[3]一种基于多特征因子改进的中文文本分类算法[J]. 叶敏,汤世平,牛振东. 中文信息学报. 2017(04)
[4]基于Lucene的地名管理模型设计与实现[J]. 徐道柱,焦洋洋,苏雪梅. 测绘与空间地理信息. 2017(03)
[5]一种改进的Lucene算法及在空间数据融合中的应用[J]. 陈利燕,林鸿,张新长. 测绘通报. 2016(10)
[6]大规模地名本体数据库系统的建构技术与方法[J]. 俞敬松,王惠临,杨洁. 图书情报工作. 2016(08)
[7]基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现[J]. 柴洁. 城市勘测. 2014(06)
[8]基于Lucene和PostGIS的地图搜索研究[J]. 梁明,罗荣,胡最. 测绘通报. 2014(11)
[9]基于搜索引擎技术的地名地址定制查询研究[J]. 邹崇尧,朱贵方,赵双明. 测绘通报. 2014(08)
[10]顾及通名语义的汉语地名相似度匹配算法[J]. 程钢,卢小平. 测绘学报. 2014(04)
本文编号:3445889
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3445889.html