基于实体演化的记录链接算法
本文选题:实体演化 切入点:记录链接 出处:《南京大学学报(自然科学)》2017年06期 论文类型:期刊论文
【摘要】:实体识别(Entity Resolution)是指判断一个或多个数据源中两个不同记录是否描述相同实体,它有时也被称作记录连接(Record Linkage),在数据集成中被用于数据清洗(Data Clean)、去重(Deduplication)和相似连接(Similarity Joins)等集成操作中.实体识别技术可被广泛应用于人口普查、引文识别、Web搜索、数据清洗以及剽窃检验等诸多领域.然而,在真实世界中,实体的属性会随着时间的变化而变化,两条记录的属性值不同不能表明这两条记录对应不同的实体,具有相同的属性值的两条记录也不能表明对应相同的实体.时间记录链接就是匹配描述同一实体的带有时间戳的记录.已有的解决时间记录链接的方法依赖于时间模型来捕捉实体的演化,但是已有的时间模型在预测实体的演化时,实体匹配准确率不高,而聚类计算复杂度较高.为此提出了更加细致的捕捉实体演化的模型和新的两阶段的快速聚类算法.通过在三个真实数据集上的实验结果表明,提出的时间模型可以更加细致地捕捉实体的演化,提出的聚类算法能更快速而准确的聚类描述同一实体的记录,提高了识别的准确率和效率.
[Abstract]:Entity identity Resolution means to determine whether two different records in one or more data sources describe the same entity, It is also sometimes referred to as record link link, which is used in data integration, such as data cleaning, data cleaning, and similar connection Similarity Joins. entity recognition technology can be widely used in census, citation identification and Web search. Data cleansing and plagiarism testing are a number of areas. However, in the real world, the attributes of the entities change over time, and the difference in attribute values between the two records does not indicate that the two records correspond to different entities. Nor can two records with the same attribute value indicate the same entity. A time record link is a record with a timestamp that describes the same entity. Existing methods for resolving time record links depend on time. To capture the evolution of entities, However, when the existing time models predict the evolution of entities, the accuracy of entity matching is not high. For this reason, a more detailed model to capture entity evolution and a new two-stage fast clustering algorithm are proposed. The experimental results on three real data sets show that, The proposed time model can capture the evolution of entities in more detail, and the proposed clustering algorithm can more quickly and accurately describe the records of the same entity, and improve the accuracy and efficiency of recognition.
【作者单位】: 东北大学计算机科学与工程学院;
【基金】:国家自然科学基金(61472070,61672142)
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 翟丽丽;李楠楠;王京;柳玉凤;;软件产业虚拟集群信任模糊认知时间模型研究[J];统计与决策;2013年15期
2 李中华,施丽华,李玉茜;属性的增量赋值[J];计算机工程;1993年01期
3 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
4 程显毅;施Oz;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
5 许多;严洪森;;并行产品开发过程的时间模型及其优化方法[J];机械工程学报;2006年01期
6 徐赐军;李爱平;刘雪梅;;耦合活动重叠执行过程的时间模型[J];计算机集成制造系统;2009年10期
7 黄康,柯尊忠,周方泽;AutoCAD的属性块及其应用[J];机械与电子;2001年02期
8 叶春晓;吴中福;符云清;钟将;冯永;;基于属性的扩展委托模型[J];计算机研究与发展;2006年06期
9 刘家红;吴泉源;甘亮;张兵;;InforSIB中的复合事件时间模型[J];计算机研究与发展;2009年03期
10 潘兴昌,,上官文斌,富立新,黄敬利;Auto-CAD的属性与细目表生成[J];机械设计与制造;1998年05期
相关会议论文 前1条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前1条
1 吴珊珊;数据流频繁项挖掘及相关性分析算法的研究[D];浙江大学;2017年
相关硕士学位论文 前9条
1 贾yN恺;基于深度特征学习的目标检测与跟踪算法研究[D];西安科技大学;2017年
2 张灿龙;不确定DM-chameleon聚类算法在滑坡危险性预测的研究及应用[D];江西理工大学;2017年
3 高乙童;大数据时效性关键技术的研究[D];哈尔滨工业大学;2016年
4 陈祖军;基于伪近邻及区间距离的不完备数据聚类方法[D];大连理工大学;2016年
5 蒋焕剑;基于深度学习的属性抽取技术研究[D];浙江大学;2017年
6 赵爽;基于敏感属性值语义的个性化匿名方法研究[D];天津财经大学;2015年
7 刘星晨;基于集成半监督学习框架的电影视频总结算法研究[D];天津大学;2016年
8 韩琼;基于边界度模型的聚类技术研究[D];郑州大学;2017年
9 邵星星;基于尺度不变特征变换的虹膜识别技术研究[D];郑州大学;2017年
本文编号:1647107
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1647107.html