劣质数据上真值发现关键技术研究
发布时间:2017-04-13 13:13
本文关键词:劣质数据上真值发现关键技术研究,由笔耕文化传播整理发布。
【摘要】:随着信息时代的迅速发展,互联网已经逐渐成为人们获取数据的主要方式。乃至当今很多的数据管理应用已经扩展到利用网络数据源来集成数据。那么对于现实世界中的同一个实体,不同的数据源可能对其提供冲突的描述,那么如何从这些冲突的描述中找出所有真实的信息就是冲突消解问题,我们主要研究语义上的冲突消解,也称之为真值发现过程。 当原始数据中混乱实体集的比例越来越大,现有的方法准确率也逐渐降低。针对这一问题,本文提出了一种基于信息熵的数据划分方法,将原始数据划分成常规数据集和混乱数据集。通过基于概率模型的方法对常规数据集进行消解,采用多维属性对数据源进行评估,并且充分考虑数据源之间存在的依赖关系,消除数据拷贝所带来的影响。 由于混乱实体集中的实体描述集过于混乱,现有的方法并不能有效的计算出真值。于是提出一种基于网络模式的消解方法,通过搜索引擎获取相应实体信息构造该实体的候选描述集,通过一种高效的候选集评估模型从候选集中找出真值,同时,候选集规模采用动态确定方式降低了计算量。 除了考虑结构化数据的冲突消解,我们把背景扩大至社交网络中的话题讨论,由于数据的提供者不再是传统的数据源,而是人。通过网络获取话题相关描述,结合网络数据并通过给定的五个特性从用户提供的描述构建候选集。结合人应该具备的特性,对用户进行领域划分并通过划分结果对候选集中元素进行验证,,选取最真实的描述。 最后本文在真实数据集上的实验充分证明了我们各个方法的准确性和高效性。
【关键词】:数据质量 真值发现 数据集成 冲突消解
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-16
- 1.1 课题背景及研究的目的和意义8-9
- 1.2 冲突消解及相关领域的现状研究9-13
- 1.2.1 数据质量10-11
- 1.2.2 数据集成11-12
- 1.2.3 冲突消解的现状12-13
- 1.3 本文的主要研究内容13-14
- 1.4 本文的组织结构14-16
- 第2章 基于概率模型的多数据源冲突消解16-31
- 2.1 问题描述16-19
- 2.1.1 问题形式化定义17-18
- 2.1.2 计算框架18-19
- 2.2 冲突消解概率模型19-24
- 2.2.1 基于信息熵的数据划分20
- 2.2.2 描述的概率分布20-22
- 2.2.3 数据源真实性评估22-24
- 2.3 数据源依赖关系24-27
- 2.3.1 问题简介24-25
- 2.3.2 贝叶斯分析模型25-27
- 2.4 综合的冲突消解策略27-28
- 2.5 实验结果及分析28-30
- 2.5.1 实验环境28
- 2.5.2 实验结果和分析28-30
- 2.6 本章小结30-31
- 第3章 基于网络模式的多数据源冲突消解31-45
- 3.1 方法概述31-34
- 3.1.1 动机31-33
- 3.1.2 问题简介33-34
- 3.2 候选集的获取34-36
- 3.2.1 关键字生成34-36
- 3.3 候选值评估36-42
- 3.3.1 真值计算36-38
- 3.3.2 候选值得分38-40
- 3.3.3 候选集规模动态确定40-42
- 3.4 实验结果和分析42-44
- 3.4.1 实验环境42
- 3.4.2 实验结果和分析42-44
- 3.5 本章小结44-45
- 第4章 社区网络中话题的真值发现45-58
- 4.1 概述45-49
- 4.1.1 问题描述45-46
- 4.1.2 方法总述46-49
- 4.2 可选候选集获取49-52
- 4.2.1 候选集元素属性49-50
- 4.2.2 候选描述的特征分析50-52
- 4.3 候选集验证阶段52-55
- 4.4 实验结果和分析55-56
- 4.4.1 实验设置55
- 4.4.2 实验结果和分析55-56
- 4.5 本章小结56-58
- 结论58-59
- 参考文献59-63
- 攻读硕士学位期间发表的论文63-65
- 致谢65
【参考文献】
中国期刊全文数据库 前5条
1 蔡国森;数据语义冲突的解决方法[J];北京工商大学学报(自然科学版);2005年03期
2 屈振新;唐胜群;;信息集成中冲突的语义解决方案[J];计算机科学;2010年01期
3 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期
4 张志强;刘丽霞;谢晓芹;潘海为;方一向;;基于数据源依赖关系的信息评价方法研究[J];计算机学报;2012年11期
5 宋敏;覃正;;国外数据质量管理研究综述[J];情报杂志;2007年02期
本文关键词:劣质数据上真值发现关键技术研究,由笔耕文化传播整理发布。
本文编号:303674
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/303674.html