当前位置:主页 > 科技论文 > 搜索引擎论文 >

大规模数据清洗关键技术研究

发布时间:2021-10-24 00:48
  随着信息技术的快速发展,数据规模的急剧增长以及数据种类的不断丰富,“数据即资产”的核心理念已经得到企业和政府机构的广泛认可。作为科技创新的原动力,“数据”在资产中的占比不断攀升,日益成为继“土地”和“资本”之后又一重大的生产要素。在数据科学领域,有这样一句箴言:“Garbage-In,Garbage-Out”。不管模型或算法如何先进,很难从有质量缺陷的数据中挖掘出高度可信的规则(相对于数据分析任务)或训练得到精准的模型(相对于机器学习任务)。因此,要充分挖掘“大数据”中蕴含的巨大价值,保证数据的“高质量”是重要的前提和基础。数据质量(Data Quality)主要用于评价数据满足应用需求的程度,其研究内容包括数据的一致性(Consistency)、完整性(Completeness)、唯一性(Uniqueness)、时效性(Timeliness)和精确性(Accuracy)等方面。作为提高数据质量的重要手段,数据清洗技术在大数据环境中面临很多的挑战:(1)由于巨大的数据规模,传统的具有多项式时间复杂度的数据清洗算法已经不再可行,有必要寻求近似线性复杂度的数据清洗算法;(2)由于繁杂多样的... 

【文章来源】:西北工业大学陕西省 211工程院校 985工程院校

【文章页数】:120 页

【学位级别】:博士

【部分图文】:

大规模数据清洗关键技术研究


D属性相似度高斯拟合示例图

大规模数据清洗关键技术研究


Abt-Buy中Blocking对ODetec算法的影响

对比图,空间优化,对比图,准确率


匹配特征空间优化前后的对比图

【参考文献】:
期刊论文
[1]一种基于离群点检测的自动实体匹配方法[J]. 樊峰峰,李战怀,陈群,刘海龙.  计算机学报. 2017(10)
[2]基于属性权重的实体解析技术[J]. 甄灵敏,杨晓春,王斌,Ahmed A Hussein.  计算机研究与发展. 2013(S1)
[3]数据质量和数据清洗研究综述[J]. 郭志懋,周傲英.  软件学报. 2002(11)



本文编号:3454243

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3454243.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户43d1b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com