面向传感云的数据源质量研究
发布时间:2021-05-01 03:55
随着传感云的兴起,在很多场景下,人们更倾向于将传感器的数据传至云端处理。这样云端便累积了大量的历史数据。如果可以预知数据源的质量,那么可以在传感器推送数据至云端、云端将数据存入数据库时做质量标记。其次,如果应用或查询需要即时从传感器中拉取数据时,可以避免拉取劣质数据污染查询结果,同时节省网络带宽等资源。在传感云中,同一个区域的值通常会被不止一个数据源提供,但来自不同数据源的数据却存在着偏差。本文围绕传感云中的数据源质量进行研究,给出了数据源质量度量模型。将数据源质量描述形式化定义为质量矩阵,用于描述数据源的整体质量情况。由于数据量会不断增大,对质量矩阵进行化简,化简结果能够体现不同场景下的同一数据源的质量的共性或者差异。基于用户感兴趣的区域,研究面向同一实体的多个数据源的质量评估问题。针对不同化简目标,设计高效的评估方法,避免因为评估数据源的时间损耗而导致整体服务质量的下降。当用户对监测区域的局部信息感兴趣,但该区域实体和实体数目未知的情况下,形式化定义了传感器监测实体的概念,研究面向多个实体的多个数据源的质量评估问题。将其归约为实体识别问题,提出基于聚类的方法。结合面向同一实体的数据...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 .研究意义
1.2 .研究现状及分析
1.2.1 .数据值的质量评估
1.2.2 .数据源的质量评估
1.2.3 .当前工作存在的问题
1.3 .本文研究内容
1.4 .本文章节安排
第2章 面向传感云的数据源质量模型
2.1 .数据源质量度量模型
2.2 .质量矩阵化简结果的应用
2.3 .数据源质量评估问题定义
2.4 .本章小结
第3章 面向同一实体的数据源质量研究
3.1 .问题定义
3.2 .考虑时间因素的单向化简算法
3.3 .不考虑时间影响的化简算法
3.4 .基于相似程度的化简算法
3.5 .化简算法分析与对比
3.6 .本章小结
第4章 面向多个实体的数据源质量研究
4.1 .问题定义
4.2 .基于最近邻的时间序列聚类算法
4.3 .基于网格的时间序列聚类算法
4.4 .时间序列的聚类算法分析
4.5 .本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
期刊论文
[1]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[2]大数据的一个重要方面:数据可用性[J]. 李建中,刘显敏. 计算机研究与发展. 2013(06)
本文编号:3170096
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 .研究意义
1.2 .研究现状及分析
1.2.1 .数据值的质量评估
1.2.2 .数据源的质量评估
1.2.3 .当前工作存在的问题
1.3 .本文研究内容
1.4 .本文章节安排
第2章 面向传感云的数据源质量模型
2.1 .数据源质量度量模型
2.2 .质量矩阵化简结果的应用
2.3 .数据源质量评估问题定义
2.4 .本章小结
第3章 面向同一实体的数据源质量研究
3.1 .问题定义
3.2 .考虑时间因素的单向化简算法
3.3 .不考虑时间影响的化简算法
3.4 .基于相似程度的化简算法
3.5 .化简算法分析与对比
3.6 .本章小结
第4章 面向多个实体的数据源质量研究
4.1 .问题定义
4.2 .基于最近邻的时间序列聚类算法
4.3 .基于网格的时间序列聚类算法
4.4 .时间序列的聚类算法分析
4.5 .本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢
【参考文献】:
期刊论文
[1]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[2]大数据的一个重要方面:数据可用性[J]. 李建中,刘显敏. 计算机研究与发展. 2013(06)
本文编号:3170096
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3170096.html