一种基于离群点检测的自动实体匹配方法
本文关键词:一种基于离群点检测的自动实体匹配方法
更多相关文章: 数据集成 实体匹配 数据质量 离群点检测 主成分分析
【摘要】:实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital BibliorgrophyLibrary Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性.
【作者单位】: 西北工业大学计算机学院;
【基金】:国家“九七三”重点基础研究发展计划项目基金(2012CB316203) 国家自然科学基金(61332006,61472321,61502390)资助~~
【分类号】:TP311.13
【正文快照】: 1引言 真实数据中存在的数据质量缺陷,如不完整、不精确、属性值缺失以及表达多样性等问题,严重影响着数据查询和分析的有效性.因此很有必要对这些“脏数据”进行清洗[1]和集成M. 实体匹配是数据清洗和集成过程中的关键环节,其目标是在数据库中识别描述同一对象的多条记录.
【相似文献】
中国期刊全文数据库 前10条
1 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
2 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期
3 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期
4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期
5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期
6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期
7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期
8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期
9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期
10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期
中国重要会议论文全文数据库 前9条
1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年
4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 刘露;异质信息网络中离群点检测方法研究[D];吉林大学;2017年
2 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
3 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
4 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
5 杨茂林;离群检测算法研究[D];华中科技大学;2012年
6 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
7 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年
8 唐向红;数据流离群点检测研究[D];华中科技大学;2010年
9 刘靖;复杂数据类型的离群检测方法研究[D];华南理工大学;2014年
10 汤俊;基于可疑金融交易识别的离群模式挖掘研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年
2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年
3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年
4 欧阳根平;Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D];电子科技大学;2015年
5 邓璇;数据流挖掘关键技术研究与实现[D];电子科技大学;2015年
6 周莹莹;利用离群点检测改进协同过滤推荐算法[D];南京邮电大学;2015年
7 文静云;基于加权自然邻域属性和熵的离群检测研究[D];重庆大学;2015年
8 梅孝辉;基于聚类的离群点挖掘在入侵检测中的应用研究[D];重庆大学;2015年
9 秦浩;基于密度的局部离群点挖掘及在入侵检测中应用研究[D];大连海事大学;2016年
10 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年
,本文编号:1222421
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1222421.html