结合多层感知器与KM算法的POI匹配方法
发布时间:2021-12-19 18:34
融合多源POI数据可提供更加丰富、完整的位置信息,但不同来源的POI数据在几何和语义表达方面存在差异,如何将异构POI数据集中的同名实体进行匹配是POI融合的关键问题。该文提出了一种结合机器学习与图论的POI匹配方法(MLP-KM方法),该方法兼顾POI的空间和非空间属性,综合考虑了几何位置、类别结构和名称属性的5个相似度度量特征,输入到多层感知器中计算匹配概率,从而避免人为分配权重造成的主观性影响;进一步引入KM图论算法,增加了相应的筛选条件与判定过程,解决了相似点对的混淆匹配问题。实验结果表明,该方法能够对相似POI进行精确识别与匹配,并有效剔除混淆匹配,提高了POI匹配精度。
【文章来源】:地理与地理信息科学. 2020,36(02)北大核心CSCD
【文章页数】:6 页
【部分图文】:
相似点对匹配示例
KM算法可看作是权重特殊分配的匈牙利算法[21],其在匈牙利算法的基础上,增加了边值的权重问题,以实现最优权重匹配。使用KM算法进行POI匹配的基本步骤(图4)为:1)边赋值:将数据源1和数据源2的所有POI作为顶点,分别构成点集A和点集B,将MLP模型输出的匹配概率作为两点之间相连的边值;2)顶点赋值:赋予点集A中的每个顶点Ai一个顶标,初始值设置为与该点相连的边的最大边值W,点集B中每个顶点Bj赋初值为0;3)匹配查找:针对点集A中的顶点Ai,依次遍历与其相连(图中长虚线)的点集B中的顶点,若满足Ai+Bj=Wij,则将Ai与Bj匹配(图中黑实线);4)冲突解决:若出现点对无法满足Ai+Bj=Wij的条件,与已匹配点对发生冲突(图中点状虚线),则将冲突内点集A的顶点顶标减1,点集B的顶点顶标加1,再循环进行步骤3)和步骤4),直至完成匹配。KM算法针对的是一对一的完备匹配数据集,对于存在无匹配点(即一对无情况)的POI数据集,直接使用KM算法会导致遍历陷入死循环,强行为不匹配点进行匹配。为剔除无匹配点的错误匹配,本文在KM算法中添加了阈值筛选,确保匹配概率值低于阈值的点对不被匹配;同时,在进行遍历操作时,设置迭代次数的限制值,若迭代循环次数超过限制值,则判定此点不存在匹配点,停止循环。
为验证本文方法的精度,对10 000条POI点对进行人工标注,匹配点对、不匹配点对分别标注为1、0,然后将训练集输入到MLP模型中进行训练,并在百度地图数据中随机选取了300个POI及其在OSM中相匹配的250个POI和50个非匹配POI,作为测试集进行精度计算。为避免数据冗余、减少计算量,首先对测试数据集中的POI进行距离计算,将距离小于1 000 m的点组成点对,得到2 672条点对数据;再将挑选的2 672条百度与OSM点对数据作为测试集代入经过训练的MLP模型中,得到匹配概率值;最后将概率值作为相似度总值代入基于KM的匹配算法中,得到匹配结果。2.2 POI匹配方法对比分析
【参考文献】:
期刊论文
[1]基于兴趣点(POI)大数据的人地关系研究综述:理论、方法与应用[J]. 薛冰,李京忠,肖骁,谢潇,逯承鹏,任婉侠,姜璐. 地理与地理信息科学. 2019(06)
[2]多源矢量空间数据融合处理技术研究进展[J]. 孙群. 测绘学报. 2017(10)
[3]国家地理信息公共服务平台“天地图”的关键技术与工程实践[J]. 蒋捷,吴华意,黄蔚. 测绘学报. 2017(10)
[4]上下文感知的智慧城市空间信息服务组合[J]. 李德仁,柳来星. 武汉大学学报(信息科学版). 2016(07)
[5]基于形式本体的POI数据分类方法[J]. 吴超,任福,杜清运,胡玮. 地理与地理信息科学. 2014(06)
[6]多种字符串相似度算法的比较研究[J]. 牛永洁,张成. 计算机与数字工程. 2012(03)
[7]基于同义词词林的词语相似度计算方法[J]. 田久乐,赵蔚. 吉林大学学报(信息科学版). 2010(06)
[8]空间目标匹配方法的应用分析[J]. 徐枫,邓敏,赵彬彬,陈建军. 地球信息科学学报. 2009(05)
[9]基于本体的概念相似度计算[J]. 张忠平,赵海亮,张志惠. 计算机工程. 2009(07)
[10]基于概率的地图实体匹配方法[J]. 童小华,邓愫愫,史文中. 测绘学报. 2007(02)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]基于概念格的多源POI分类体系融合研究[D]. 李一.兰州交通大学 2017
本文编号:3544863
【文章来源】:地理与地理信息科学. 2020,36(02)北大核心CSCD
【文章页数】:6 页
【部分图文】:
相似点对匹配示例
KM算法可看作是权重特殊分配的匈牙利算法[21],其在匈牙利算法的基础上,增加了边值的权重问题,以实现最优权重匹配。使用KM算法进行POI匹配的基本步骤(图4)为:1)边赋值:将数据源1和数据源2的所有POI作为顶点,分别构成点集A和点集B,将MLP模型输出的匹配概率作为两点之间相连的边值;2)顶点赋值:赋予点集A中的每个顶点Ai一个顶标,初始值设置为与该点相连的边的最大边值W,点集B中每个顶点Bj赋初值为0;3)匹配查找:针对点集A中的顶点Ai,依次遍历与其相连(图中长虚线)的点集B中的顶点,若满足Ai+Bj=Wij,则将Ai与Bj匹配(图中黑实线);4)冲突解决:若出现点对无法满足Ai+Bj=Wij的条件,与已匹配点对发生冲突(图中点状虚线),则将冲突内点集A的顶点顶标减1,点集B的顶点顶标加1,再循环进行步骤3)和步骤4),直至完成匹配。KM算法针对的是一对一的完备匹配数据集,对于存在无匹配点(即一对无情况)的POI数据集,直接使用KM算法会导致遍历陷入死循环,强行为不匹配点进行匹配。为剔除无匹配点的错误匹配,本文在KM算法中添加了阈值筛选,确保匹配概率值低于阈值的点对不被匹配;同时,在进行遍历操作时,设置迭代次数的限制值,若迭代循环次数超过限制值,则判定此点不存在匹配点,停止循环。
为验证本文方法的精度,对10 000条POI点对进行人工标注,匹配点对、不匹配点对分别标注为1、0,然后将训练集输入到MLP模型中进行训练,并在百度地图数据中随机选取了300个POI及其在OSM中相匹配的250个POI和50个非匹配POI,作为测试集进行精度计算。为避免数据冗余、减少计算量,首先对测试数据集中的POI进行距离计算,将距离小于1 000 m的点组成点对,得到2 672条点对数据;再将挑选的2 672条百度与OSM点对数据作为测试集代入经过训练的MLP模型中,得到匹配概率值;最后将概率值作为相似度总值代入基于KM的匹配算法中,得到匹配结果。2.2 POI匹配方法对比分析
【参考文献】:
期刊论文
[1]基于兴趣点(POI)大数据的人地关系研究综述:理论、方法与应用[J]. 薛冰,李京忠,肖骁,谢潇,逯承鹏,任婉侠,姜璐. 地理与地理信息科学. 2019(06)
[2]多源矢量空间数据融合处理技术研究进展[J]. 孙群. 测绘学报. 2017(10)
[3]国家地理信息公共服务平台“天地图”的关键技术与工程实践[J]. 蒋捷,吴华意,黄蔚. 测绘学报. 2017(10)
[4]上下文感知的智慧城市空间信息服务组合[J]. 李德仁,柳来星. 武汉大学学报(信息科学版). 2016(07)
[5]基于形式本体的POI数据分类方法[J]. 吴超,任福,杜清运,胡玮. 地理与地理信息科学. 2014(06)
[6]多种字符串相似度算法的比较研究[J]. 牛永洁,张成. 计算机与数字工程. 2012(03)
[7]基于同义词词林的词语相似度计算方法[J]. 田久乐,赵蔚. 吉林大学学报(信息科学版). 2010(06)
[8]空间目标匹配方法的应用分析[J]. 徐枫,邓敏,赵彬彬,陈建军. 地球信息科学学报. 2009(05)
[9]基于本体的概念相似度计算[J]. 张忠平,赵海亮,张志惠. 计算机工程. 2009(07)
[10]基于概率的地图实体匹配方法[J]. 童小华,邓愫愫,史文中. 测绘学报. 2007(02)
博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005
硕士论文
[1]基于概念格的多源POI分类体系融合研究[D]. 李一.兰州交通大学 2017
本文编号:3544863
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/3544863.html