大数据集成中确定数据准确属性值的WR方法
本文选题:大数据集成 + 数据质量 ; 参考:《计算机研究与发展》2016年02期
【摘要】:大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.
[Abstract]:Big data integration is the basis for providing high-quality data for decision-making.A key step in integration is to determine the exact attribute values of entities according to their different tuples in the database.The newest R-topK method implements the rule of artificial design on the data to determine the degree of accuracy between the attribute values, and obtains the relatively accurate attribute value.However, this method requires more human interaction when dealing with multiple possible exact values or conflict of designed rules.This paper presents a WRRRweighted-rule method based on weight rules to determine the exact attribute value of data in big data integration.This method extends the weight of the rule for judging the degree of accuracy between attribute values, and avoids the human interaction in the R-topK method when the exact value conflicts.A constraint reasoning algorithm is designed based on the chase process, and it is proved that it can deduce the degree of accuracy of the weights between each pair of attribute values in ON2) and form the constraint conditions for deriving the exact attribute values.In the face of possible conflicts in constraint conditions, a target solving algorithm is proposed to search for the most likely exact attribute values from all attribute combinations in the time limit.Experiments in real and synthetic data sets show that the effect and efficiency of WR method. WR method has improved the performance by 3 ~ 15 times compared with R-topK method, and the effect of WR method has been improved by 70%.
【作者单位】: 中国电力科学研究院;中国人民大学信息学院;数据工程与知识工程教育部重点实验室(中国人民大学);
【基金】:国家“九七三”重点基础研究发展计划基金项目(2014CB340403) 国家电网公司研究项目(EPRIPDKJ[2014]3763号)~~
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
2 程显毅;施Oz;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
3 黄康,柯尊忠,周方泽;AutoCAD的属性块及其应用[J];机械与电子;2001年02期
4 叶春晓;吴中福;符云清;钟将;冯永;;基于属性的扩展委托模型[J];计算机研究与发展;2006年06期
5 潘兴昌,上官文斌,富立新,黄敬利;Auto-CAD的属性与细目表生成[J];机械设计与制造;1998年05期
6 杜晓明,于永利,胡晖;一种基于案例的多属性综合评价方法[J];系统工程与电子技术;1999年09期
7 王卫卫;;AutoCAD的属性块及其在电力绘图中的应用[J];长江工程职业技术学院学报;2008年03期
8 贾真;杨宇飞;何大可;刘胜久;尹红风;;面向中文网络百科的属性和属性值抽取[J];北京大学学报(自然科学版);2014年01期
9 亓呈明;崔守梅;;滑坡数据连续属性值处理的研究[J];微计算机信息;2006年24期
10 朱颢东;钟勇;;基于规则综合质量的属性值约简算法[J];计算机与数字工程;2009年02期
相关会议论文 前2条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 张亮;胡学钢;;多层次属性值下概念格的动态转化[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
相关重要报纸文章 前2条
1 重庆 韩涛;中望CAD中块属性的制作[N];电脑报;2004年
2 7Star;教你做RM压缩程序[N];电脑报;2003年
相关硕士学位论文 前4条
1 张朝胜;领域本体概念实例、属性及属性值提取研究[D];昆明理工大学;2011年
2 孙正;基于药物属性的中药方剂组网及药物社团发现研究[D];南京大学;2013年
3 张丙辰;基于结构和属性的图挖掘技术应用研究[D];哈尔滨工程大学;2012年
4 谢惊时;数据匹配问题中的记录链接模型[D];天津财经大学;2013年
,本文编号:1736655
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1736655.html