基于Crowdsourcing的不完整数据Skyline-Join查询处理研究
发布时间:2021-04-03 01:51
Skyline查询能够返回用户更感兴趣的数据,是数据库研究领域的研究热点之一,在航班查询、商品推荐、住宿选择等诸多领域得到了广泛的应用。作为skyline查询的一种变体,skyline-join查询能够解决多个数据集上的skyline查询问题。Skyline-join查询一般基于完整数据库进行,然而由于自动信息提取和聚合的广泛使用,不完整的数据集已成为一种常见现象。当获取的信息的属性存在缺失时,现有的不完整数据集上skyline-join查询算法一般基于概率或基于打分的方式进行处理。为了更能真实反映现实情况和更以用户为中心,本文提出一种基于众包的方法来解决不完整数据的skyline-join查询。主要思想是当元组中某些属性的值未知时,利用众包来推断元组之间的成对偏好。具体而言,提出的解决方案考虑了现有的启用众包的算法中使用的2个关键因素,即通过使用元组在已知属性上的偏好关系来最小化众包成本和通过并行处理向人群提出的问题来减少等待时间的轮数。根据skyline-join查询在不完整数据库中是否包括已知属性值的属性维度将基于众包的skyline-join查询分为两类,即基于众包的部分sky...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Hotel的skyline示例
第1章引言3通常,skyline-join查询由两个阶段组成,即将包含所需属性的关系进行连接,以及在连接后在关系中进行skyline查询。图1-2展示了计算两个数据集上的Skyline-join查询处理。假设数据库包含存储特定城市有关酒店和餐厅关系的信息。通过最小化酒店“H-Price”和“Rating”的属性值,以及最小化餐厅“Quality”及其“H-Price”的属性值,游客应该有兴趣在同一“Loc”中发现酒店和餐厅的最佳组合。Skyline-join查询的结果数据集如图1-2所示。使用skyline-join查询可以根据指定的属性检索最“重要”的连接元组。图1-2Skyline-join示例在图1-2的skyline-join查询中,两个数据集首先通过唯一的连接属性“Loc”连接,然后在连接后在数据集中执行skyline查询。连接后的数据元组{h4,R1}被{h1,R1}支配,除数据元组h4∞R1外,其他连接后数据元组之间不能相互支配,因此它们都是skyline-join查询的结果。由此可以看出,“skyline-join”可以从多个数据集中返回skyline查询结果,这些结果涉及多个属性维度,并且用户难以从中找到符合自己要求的结果。然而,在上述例子中,为了能够提供给用户更有参考价值的结果,往往仅仅根据质量、平均消费等确定的属性不够的,如果能够知道曾经去过某个餐厅的用户对餐厅的整体评价,即性价比,那么它可以更准确地反映实际情况,并且更加以用户为中心。如前所述,一家餐厅的性价比通常是未知的。此外,由于自动信息提取和聚合的广泛使用,不完整的数据集是一种常见现象。现有的skyline-join查询首先连接所有的完整数据集,然后基于完整数据集应用现有skyline算法。但是这
第2章相关工作12图2-1众包流程的示意图2.5本章小结第2章相关工作对本文所涉及到的研究内容的研究现状进行介绍,首先介绍了skyline-join查询方法的相关研究内容,skyline-join查询涉及到多表查询并且应用范围十分广泛,相关技术涉及多个方向。其次又不完整数据集上skyline查询做出介绍,基于不完整数据集上的skyline查询方法众多,本文针对主要的查询方法类型进行分类对比研究。接下来,介绍了众包在查询中的应用的相关研究。最后,通过基本的流程图的方式对众包的过程做出简单的介绍。
本文编号:3116378
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Hotel的skyline示例
第1章引言3通常,skyline-join查询由两个阶段组成,即将包含所需属性的关系进行连接,以及在连接后在关系中进行skyline查询。图1-2展示了计算两个数据集上的Skyline-join查询处理。假设数据库包含存储特定城市有关酒店和餐厅关系的信息。通过最小化酒店“H-Price”和“Rating”的属性值,以及最小化餐厅“Quality”及其“H-Price”的属性值,游客应该有兴趣在同一“Loc”中发现酒店和餐厅的最佳组合。Skyline-join查询的结果数据集如图1-2所示。使用skyline-join查询可以根据指定的属性检索最“重要”的连接元组。图1-2Skyline-join示例在图1-2的skyline-join查询中,两个数据集首先通过唯一的连接属性“Loc”连接,然后在连接后在数据集中执行skyline查询。连接后的数据元组{h4,R1}被{h1,R1}支配,除数据元组h4∞R1外,其他连接后数据元组之间不能相互支配,因此它们都是skyline-join查询的结果。由此可以看出,“skyline-join”可以从多个数据集中返回skyline查询结果,这些结果涉及多个属性维度,并且用户难以从中找到符合自己要求的结果。然而,在上述例子中,为了能够提供给用户更有参考价值的结果,往往仅仅根据质量、平均消费等确定的属性不够的,如果能够知道曾经去过某个餐厅的用户对餐厅的整体评价,即性价比,那么它可以更准确地反映实际情况,并且更加以用户为中心。如前所述,一家餐厅的性价比通常是未知的。此外,由于自动信息提取和聚合的广泛使用,不完整的数据集是一种常见现象。现有的skyline-join查询首先连接所有的完整数据集,然后基于完整数据集应用现有skyline算法。但是这
第2章相关工作12图2-1众包流程的示意图2.5本章小结第2章相关工作对本文所涉及到的研究内容的研究现状进行介绍,首先介绍了skyline-join查询方法的相关研究内容,skyline-join查询涉及到多表查询并且应用范围十分广泛,相关技术涉及多个方向。其次又不完整数据集上skyline查询做出介绍,基于不完整数据集上的skyline查询方法众多,本文针对主要的查询方法类型进行分类对比研究。接下来,介绍了众包在查询中的应用的相关研究。最后,通过基本的流程图的方式对众包的过程做出简单的介绍。
本文编号:3116378
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3116378.html
最近更新
教材专著