面向大数据流的分布式B+树索引构建

发布时间：2021-02-14 06:42

　　随着大数据时代的到来,数据的产生及其应用方式更加多元化。数据流是一种特殊的大数据形态,具有实时性、无限性、突发性等特点,在众多领域有着广泛的应用,具有很高的价值。然而,数据流的流速快且数据量巨大,其在实时处理、存储和查询等方面都存在很大的挑战。对此,本文提出了一种适用于数据流场景的分布式索引结构,其能支持数据流的高效存储与查询。本文贡献如下:1.提出了一种适用于大数据流场景的分布式B+树索引结构:WB-Index。WB-Index是一种双层的主从索引结构,其利用时间窗口机制切分数据流。在每个时间窗口内,根据流元组内容构建B+树索引作为底层索引,针对各连续时间窗口,以时间窗口起始时间戳作为“Key”值,时间窗口对应底层索引元信息作为“Value”值构建顶层B+树索引。WB-Index将底层索引分发到多个节点来减轻索引维护压力。WB-Index系统架构中,通过多种节点类型将流元组存储、索引构建和查询请求分离,从而满足数据流的高效存储与查询。2.针对WB-Index索引结构,提出了高效的索引构建方法。由于数据流流速快,索引的构建效率至关重要。针对底层索引,提出基于并行排序的预装载B+树批量构...

【文章来源】：浙江工业大学浙江省

【文章页数】：82 页

【学位级别】：硕士

【部分图文】：

面向大数据流的分布式B+树索引构建

不同流元组数量下排序线程数量对排序性能的影响

索引,时延,底层,线程

图 4-6 不同流元组数量下排序线程数量对排序性能的影响re 4-6. Sort delay vs. the number of threads in different amount of tupl果如图 4-6 所示，当数据量较小时，单线程排序性能优于多线据量达到一定量级后，并行排序才会具有优势。此外，当线程后，随着线程数量的增加，最终的排序时间反而会增加，这是量会导致最后归并排序时长增加，也会增加线程切换的时间开节的理论分析结论。由实验结果可得，当数据量为 100 万和 1程排序的性能最优。小节分析可得，底层 B+树索引构建过程中，在窗口数量、排定的情况下，分片数 NSlice会影响构建时延。本实验评估了分树索引的构建时延的影响。实验也对比了底层索引构建过程中B+树骨架构建+预装载时间、B+树赋值时间的占比情况。实验 20 秒，窗口数据量为 2000 万条，即模拟的数据流平均流速为

时延,组数,预排序,数据流

浙江工业大学硕士学位论文结果如图 4-7 所示，底层索引的构建时延随着分片数的增加有着，这符合 4.2 小节中理论计算得出的结论。当分片数量超过 25构建时延基本稳定，且在分片数为 35 左右时构建时延达到最小中，排序时延占构建时延的 70%～80%的左右，其他阶段的时间固定，这也证明了排序时延直接决定了构建时延。对于索引构高性能服务器，通过提高排序性能来减少构建时延。流具有波动性，每个时间窗口的数据量存在较大的差异。本实验速的数据流来考察底层索引的构建性能。相比于传统的 B+树批提方法通过预排序和增加构建并行度的方法来提高构建效率，同数据流流速下两种 B+树构建方法的性能。实验中设置的窗口片数量设置为 35。

【参考文献】：
期刊论文
[1]一种面向HDFS的多层索引技术[J]. 何龙,陈晋川,杜小勇.  软件学报. 2017(03)
[2]面向大数据的分布式流处理技术综述[J]. 张鹏,李鹏霄,任彦,林海伦,杨嵘,郑超.  计算机研究与发展. 2014(S2)
[3]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民.  软件学报. 2014(04)
[4]列存储数据库关键技术综述[J]. 李超,张明博,邢春晓,胡劲松.  计算机科学. 2010(12)
[5]流数据分析与管理综述[J]. 金澈清,钱卫宁,周傲英.  软件学报. 2004(08)

本文编号：3033288

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3033288.html

上一篇：基于隐私保护的数据建模与算法研究
下一篇：一种节能的智能手机计步算法的研究与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|