征信系统中实体匹配方法及应用研究

发布时间：2020-04-26 04:02

【摘要】： 实体是指社会经济运行过程中有经济活动能力个体或组织,在征信系统中它可以指称个人、家庭、企业、企业集团等。实体匹配就是判定语法不同的信用信息所描述的实体是否具有相同的语义。征信系统是覆盖全国每一个有经济活动能力的实体的信用档案信息系统,它通过采集分散在社会不同部门信用信息,并按照信用实体为主题进行归集和发布的信息系统,为全国每一个有经济活动能力的实体建立其信用档案。征信系统是社会信用体系的基础设施,随着市场经济的不断发展,征信系统在社会经济生活中扮演着越来越重要的角色。实体匹配是建设全国统一征信系统的技术基础。由于不同数据源信用记录标识主键不同,加之存在数据输入错误、格式、拼写差异等问题,为了实现征信系统的功能目标,需要开展大量信用记录的实体模糊匹配运算。征信系统中实体匹配可以分为三个层次的匹配运算,分别是字段级匹配、记录级匹配和复杂结构级匹配。除此之外还需要解决征信系统所特有的匹配数据量大,采集数据源差别大,范围广,不断扩展等技术难点问题。本文以征信系统中实体匹配运算为研究对象,按照从不同数据源数据特征学习相应匹配函数的研究思路,主要进行了以下几方面研究： (1)研究了自适应字段匹配问题,提出了基于关联token的自适应字符串相似度计算方法。该算法通过关联token操作集,形式化定义了同音字相似度,提炼不同数据源的词频与关联操作频度的数据特征,并通过对支持向量机训练,以计算适应词频、关联类型等数据特征的匹配分类及相似度计算函数。通过实验验证与对比分析,说明了该算法对于数据源的数据质量、关联类型等都具有良好的适应性。 (2)研究了有标识字段的实体信用记录高效匹配问题,设计了联合分组模型。为了解决大数据量实体信用记录高效匹配问题,通过分组算子抽取了索引和分组运算特征,引入了析取式和析取范式的整体分组式概念,使用多个分组算子联合对实体记录进行分组,设计了联合分组模型,以减少匹配运算中比较次数,提高信用记录匹配运算的效率。最后使用求解覆盖集方法,在保证匹配运算精度的前提下,符合不同数据源特点的最优整体分组式。通过实验验证以上方法具有较高的匹配运算效率。 (3)研究了多数据源无标识字段的实体记录匹配问题。设计了半监督式基于主动学习的实体匹配方法和无监督式基于迭代SVM的自动实体匹配方法。其中前者应用主动学习的思想,首先使用聚类队列建立多个匹配函数学习机组成学习委员会,其次使用匹配熵计算式,由学习委员会在候选训练样本中主动挑选最有利匹配函数学习的实体记录对,实现对实体记录对标识字段与匹配函数自主学习。后者是利用SVM学习机最大化分类超平面与支持向量之间距离的特性,自动学习新数据源的标识字段和匹配函数。首先使用最近邻居法自动选择初始训练样本集,其次应用最大化分类间隔的特点迭代对SVM进行自动训练,使分类超平面逐步逼近匹配实体对与非匹配实体对的分类边界,实现自动的实体匹配函数的学习。通过实验分析了主动学习实体匹配方法和迭代SVM自动实体匹配方法的优点及限制条件。 (4)研究了复杂数据结构的记录簇实体匹配问题。根据记录簇实体的特殊的数据结构,应用赋权二部图理论建立了规范的记录簇实体匹配的数学模型。为了实现高效地记录簇实体匹配运算,设计了记录簇实体上下界匹配算法,使用快速推导出匹配实体阈值的上下界,减少实体所属子记录最大权匹配的计算次数。通过数据实验,验证了本文提出的匹配模型与方法可以有效提高记录簇实体匹配精度和效率。 (5)研究了复杂数据结构的XML半结构化实体匹配问题,通过计算XML文本中不同类型的属性节点在父节点中的权重,设定匹配实体相似度阈值,求取XML转换规则和实体匹配函数,进行XML实体的匹配运算。使用实验数据说明该方法具有良好的匹配分类效率。本文是在中国人民银行负责建设的全国集中统一的企业与个人征信系统的基础上,通过总结其实体匹配运算所面临的技术瓶颈,分析目前方法中存在的缺陷,提炼,抽象出具体的研究问题。本文提出的实体匹配方法,目前多数都已在个人与企业征信系统中投用,解决了征信系统建设过程中遇到的多数据源、海量数量、复杂结构条件下的实体匹配技术难点问题,取得了实验结果基本一致的良好使用效果。目前企业征信系统实现信贷、结算账户、社保缴费、环境违法信息等15大类共882家机构的信用信息采集与匹配运算。个人征信系统实现信贷、公积金缴存、养老保险、电信欠费等11大类共702家机构的信用信息采集与匹配运算,基本实现了全面统一的实体信用信息归集整理的征信系统建设目标。
【图文】：

操作集,关联关系,字符串

的字符位置，它们序列的长度也为n，例如tZ、CxZ、CyZ表示的就是X中第Cx:个token与Y中第CyZ个t。ke存在tZ关联关系，，也就是它们通过t:可以相互转换。在此通过两个字符串的关联关系图来说明关联操作集定义，图3.2是“上海市浦东新区卡园二路108号”与“蒲东区卡园2路108”两个地址字符串的关联关系图与关联操作集示例。通过图3.2可以看出，关联操作集是由一组关联操作组成，每个关联操作在字符串的一对token间建立映射关系，通过关联操作集，字符串可以相互转换。利用关联操作集定义字符串之间关系，使用规范的数据描述相似程度。但是，我们可以明显看出，对于任意两个字符串，可以建立多个关联操作集，每个关联操作集代表了一种转换方式。因此对于字符串相似度值的计算转换为建立关联操作集和为不同的关联操作赋予适当的权重值，以便计算出可以真正反映出实体匹配关系的属性字符串的相似度值。也就是对于字符串对X和Y，通过关联操作集T的映射，得到它们的相似度值Z

企业信贷,数据

3.5.3实验结果与分析使用以上四种方法应用于企业信贷数据的信用实体属性字符串的相似度计算，评价指标的结果如图3.4所示。从图3.4实验结果来看，四种字符串相似度计算方法在数据量小、数据质量较好的情况下。表现出了较好的准确度，这主要是因为与个人实体相比，企业实体的数量少，所以企业实体的信用数据是三类测试数据中数据量最小的。同时它采集自全国性商业银行，使用接口程序自动从业务数据中生成上报的信用数据，银行业务系统的办理程序较为规范，所以数据质量较好，较少出现缩写词、同音字输入错误等问题。从算法的精确度分析，还可以发现Bigram法的精确度略好于Levenshtein法，这是因为Bigr别卫法是基于token的字符串相似度算法，它适用于较长字符串的相似度计算，而企业征信数据的属性字符串的长度一般都较长
【学位授予单位】：大连理工大学
【学位级别】：博士
【学位授予年份】：2010
【分类号】：F832.4;F224

【引证文献】