当前位置:主页 > 科技论文 > 软件论文 >

弱可用数据近似聚集查询处理问题研究

发布时间:2021-09-03 19:46
  随着信息技术的迅速发展,数据规模逐渐扩大,劣质数据也随之而来,极大地降低了数据的可用性。当一个数据集合中的错误不能彻底修复时,我们称其为弱可用数据。弱可用数据上近似计算(如查询、分析、挖掘等)的理论和算法成为重要的研究问题。弱可用数据上的近似计算不同于传统意义下的近似计算,它是在具有一致性错误、完整性错误、精确性错误、时效性错误或实体同一性错误的数据上近似地求解满足给定精度要求的问题的解。目前,面向弱可用数据的查询处理主要有两种解决方法:一是对弱可用数据进行数据修复,在修复后的数据集上执行查询。二是直接在弱可用数据上计算满足所有可能修复的查询结果。在第一种方法中,由于修复具有多种可能,没有任何一种修复算法能够保证修复后的查询结果的准确性;第二种方法可能造成大量的弱可用数据丢失,严重降低了查询结果的质量。为了有效地解决上述问题,本文围绕完整性、一致性、实体同一性这三个方面,对弱可用数据聚集查询处理展开研究,本文的研究内容可以概括如下:首先,本文研究了可填充的不完整弱可用数据聚集查询处理问题。不完整数据又称为缺失数据,现有的缺失值填充算法不能保证填充后查询结果的准确度。本文给出一种面向不完... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:126 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景和意义
    1.2 研究现状及分析
        1.2.1 不完整数据查询处理研究现状
        1.2.2 实体冲突数据查询处理研究现状
        1.2.3 不一致数据查询处理研究现状
        1.2.4 近似查询处理研究现状
        1.2.5 现有工作的不足
    1.3 本文的主要研究内容
    1.4 本文章节安排
第2章 可填充的不完整弱可用数据聚集查询处理
    2.1 引言
    2.2 问题定义
    2.3 聚集查询处理
        2.3.1 选择条件处理
        2.3.2 聚集函数计算
    2.4 SUM和COUNT查询结果区间估计
        2.4.1 聚集函数可加性
        2.4.2 查询结果估计
        2.4.3 区间估计算法
    2.5 AVG查询结果区间估计
        2.5.1 最大最小AVG子集
        2.5.2 查询结果估计
        2.5.3 区间估计算法
    2.6 实验分析
        2.6.1 实验设置
        2.6.2 估计准确性
        2.6.3 参数的影响
    2.7 本章小结
第3章 不可填充的不完整弱可用数据聚集查询处理
    3.1 引言
    3.2 背景介绍
        3.2.1 三值逻辑
        3.2.2 确定结果
    3.3 问题定义
    3.4 关系数据库模型及聚集查询扩展
        3.4.1 关系数据库模型扩展
        3.4.2 查询处理扩展
        3.4.3 聚集查询扩展
    3.5 SUM和COUNT查询可靠结果
        3.5.1 可靠结果算法
    3.6 AVG查询可靠结果
        3.6.1 可靠结果算法
    3.7 实验分析
        3.7.1 实验设置
        3.7.2 准确性分析
        3.7.3 可扩展性分析
    3.8 本章小结
第4章 实体冲突弱可用数据聚集查询处理
    4.1 引言
    4.2 预备知识
        4.2.1 分块阶段
        4.2.2 去重阶段
    4.3 系统简介
    4.4 基于众包的实体识别
        4.4.1 机器剪枝阶段
        4.4.2 人工识别阶段
    4.5 聚集查询结果无偏估计
        4.5.1 基于块采样的无偏估计
        4.5.2 重复数据上基于块采样的无偏估计
    4.6 系统实现
    4.7 实验分析
        4.7.1 实验设置
        4.7.2 查询结果准确率
        4.7.3 查询处理效率
        4.7.4 置信区间收敛性
        4.7.5 系统可扩展性
    4.8 本章小结
第5章 不一致弱可用数据聚集查询处理
    5.1 引言
    5.2 问题定义
    5.3 基于不确定图最小生成树的修复
        5.3.1 不确定图模型
        5.3.2 最可靠最小生成树
        5.3.3 修复属性选取问题转化
        5.3.4 最小生成树算法
    5.4 不一致数据查询处理算法
        5.4.1 确定性概率最大修复
        5.4.2 聚集查询处理算法
        5.4.3 算法复杂性分析
    5.5 实验分析
        5.5.1 实验设置
        5.5.2 准确性分析
        5.5.3 可扩展性分析
    5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历



本文编号:3381748

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3381748.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b4ce5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com