基于非主属性值的实体匹配
发布时间:2017-10-09 02:21
本文关键词:基于非主属性值的实体匹配
【摘要】:实体匹配旨在找出不同数据源中指代同一实体的实例.已有的实体匹配方法大都基于实体主属性值的相似度进行匹配,而很少有工作考虑到使用实体的非主属性值来辅助实体匹配.然而,当两条指代同一实体的主属性值差异较大的时候,这两个实体可能不会被认为是匹配的实体.另一方面,这两个实体很可能共享一些特别的非主属性值,而这些非主属性值恰好可以反映出两个实体的匹配关系.基于这种思想,文中提出了一种新颖的基于非主属性值的实体匹配算法.该算法以类似于决策树的结构为基础,通过使用这种结构,不仅可以解决噪声值和空缺值带来的问题,而且可以极大地提高发现匹配记录以及尽可能早地排除不匹配记录的效率.多个数据集上的实验结果表明我们的方法比现有的实体匹配方法具有更高的准确率和召回率.此外,使用我们提出的基于决策树的匹配算法等有关技术较Baseline匹配算法在匹配效率上高出10倍多.
【作者单位】: 苏州大学计算机科学与技术学院;昆士兰大学信息技术与电子工程学院;
【关键词】: 实体匹配 非主属性 数据质量 性能 算法
【基金】:国家自然科学基金(61402313,61472263,61303019,61572336) 江苏省博士后科研基金(1501090B) 中国博士后第58批面上基金(2015M581859) 江苏软件新技术与产业化协同创新中心的资助~~
【分类号】:TP311.13
【正文快照】: 1引言 随着信息时代数据量级的剧增,数据之间的不一致和冲突问题日益凸显[1].为了将不同来源的不一致数据进行融合,前人在“实体匹配”方面做了大量研究工作,旨在发现不同数据库中表示同一实体的实例[2]. 目前,大多数的实体匹配方法都是借助前缀过滤或Q-gram等方法通过度量,
本文编号:997624
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/997624.html