海量数据top-k查询系统的设计与实现

发布时间：2021-11-20 17:21

　　海量数据上的top-k查询是一项非常重要的查询类型,top-k查询是根据指定的评分函数返回分数最高的k个对象给用户,本文研究top-k查询的两种扩展:top-k selection查询和top-k skyline查询。Top-k selection查询是以对象自身属性值的范围作为选择条件,而top-k skyline查询是以对象与对象间的关系作为选择条件;最终返回满足选择条件且分数最高的k个对象,为用户提供决策支持。首先,在top-k selection研究中,本文提出top-k selection查询基线算法BASel,BASel算法顺序扫描数据集,选择出满足选择条件并且分数最高的k个元组;为了提高top-k selection查询的速度,本文提出基于预排序的top-k selection查询算法PTS,PTS算法对数据集进行预排序,顺序扫描有序表获取top-k selection查询结果,根据数据分布的特点,提出早结束条件,减少I/O次数;为了进一步改善PTS算法的效率,本文提出两个剪枝方法:选择剪枝和分数剪枝;在预排序的基础上,PTS算法结合两种剪枝策略,进一步提高查询速度。实验...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：84 页

【学位级别】：硕士

【部分图文】：

海量数据top-k查询系统的设计与实现

012-2018年中国在线咨询量及在线医疗市场规模

饭店,信息检索,应用领域,数据库

哈尔滨工业大学工程硕士学位论文-2-数据量的剧增引起科学研究者对处理海量数据的兴趣；如图1-2所示，图中的点表示饭店数据库，横轴表示饭店的人均消费价格，纵轴表示当前查询用户位置到饭店的距离；当用户在决定去哪吃饭之前，利用用户自身的偏好，确定评分函数，根据评分函数返回分数为top-k的饭店；不同的用户可能对应不同的偏好，那么就对应不同的评分函数；比如：有的用户比较在意价格，那么对于这一类用户在为他们进行top-k查询时，评分函数中价格的权重百分比很高，而距离的权重百分比很小，根据价格和距离进行综合评分；而有的用户在时间很紧迫的时候，希望饭店距离自己的位置越近越好，这样可以节省大量时间，这种查询情况将距离属性的权重变高，而价格属性的权重百分比很校对于不同的用户，无法确定用户对于不同属性的偏好，所以饭店数据库系统无法直接返回查询结果给用户，而需要用户指定每个评分属性的权重，最后返回top-k查询结果给用户。图1-2饭店数据库Top-k查询的应用领域非常广泛，不仅可以应用在网页搜索、信息检索以及k近邻近似匹配中，而且可以为用户提供决策支持，以及在城市导航系统中为用户提供距离更近的行驶路线，并且与多媒体数据库相似性查询，skyline查询，最近邻搜索等多个研究有关。由于数据量非常大，进行top-k查询是非常困难的，而且选择合适的评分函数也是非常困难的。例如：用户在购买房子时，房子会具有一些属性，比如房屋的位置、房屋的层数、房屋在几层以及房屋已经使用的年限，这些属性都会影响购买者对房子的评分，因此房屋中介会根据用户对这些属性的偏好，对房屋进行有效评分，这些评分会直接影响返回的房屋查询结果；而中介肯定希望返回的查询结果尽量满足购买者的需求；所以选

示意图,示意图,选择条件,房屋

哈尔滨工业大学工程硕士学位论文-3-择更加准确的评分函数是非常重要的。出于对现实意义的考虑，还是以购买房屋为例，有的购买者是老年人，他们要求房屋所在的楼层是低于或等于3层，并且根据位置、年限属性等进行评分；那么购买者提出的“楼层是低于或等于3层”是一个选择条件，必须在满足这个条件的基础上，再根据评分函数返回分数top-k的房屋；上面例子的查询与传统的top-k查询不同，该查询是基于选择条件的查询，这类查询称为top-k选择查询。Top-k选择查询将选择条件和top-k查询融合在一起，其更符合现在用户的查询需求，因为大多数用户在进行查询时，会提出若干个选择条件，在满足选择条件的对象中选择分数top-k的对象，所以这类查询具有重大的理论意义和应用价值。上面例子中的选择条件是利用对象自身的属性值进行判断，而另一种选择条件是根据对象与对象之间的关系进行确定，确定满足选择条件的子集，这个过程称为skyline查询。Skyline查询是另一种偏好查询，skyline查询返回只能支配其余元组，不能被其余元组所支配的元组；skyline查询的应用领域非常广泛，可以为用户做出决策等。Borzsonyi等人[1]在2001年首次提出关于skyline查询的形象定义，是因为skyline查询结果点连接在一起像天际线，故取名为“Skyline查询”。图1-3待租房skyline示意图如图1-3展示待租房屋的skyline示意图，表示以价格、与工作地点的距离为skyline属性，图中用直线连接的点为skyline查询结果。例如：应届毕业生刚到公司入职时，会选择在公司的附近租房子，租房网站对房子的数据进行统计，筛选出离公司较近和价格更便宜的房屋，给用户返回一个房屋列表，供用户进行选择。然而现实情况下，价格与距离之间可能是相互矛盾的，也就是说，

本文编号：3507793

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3507793.html

上一篇：基于故障诊断的慕课系统设计
下一篇：协同创新环境下数字图博档联盟融合发展研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|