当前位置:主页 > 科技论文 > 软件论文 >

面向大数据流的分布式B+树索引构建

发布时间:2021-02-14 06:42
  随着大数据时代的到来,数据的产生及其应用方式更加多元化。数据流是一种特殊的大数据形态,具有实时性、无限性、突发性等特点,在众多领域有着广泛的应用,具有很高的价值。然而,数据流的流速快且数据量巨大,其在实时处理、存储和查询等方面都存在很大的挑战。对此,本文提出了一种适用于数据流场景的分布式索引结构,其能支持数据流的高效存储与查询。本文贡献如下:1.提出了一种适用于大数据流场景的分布式B+树索引结构:WB-Index。WB-Index是一种双层的主从索引结构,其利用时间窗口机制切分数据流。在每个时间窗口内,根据流元组内容构建B+树索引作为底层索引,针对各连续时间窗口,以时间窗口起始时间戳作为“Key”值,时间窗口对应底层索引元信息作为“Value”值构建顶层B+树索引。WB-Index将底层索引分发到多个节点来减轻索引维护压力。WB-Index系统架构中,通过多种节点类型将流元组存储、索引构建和查询请求分离,从而满足数据流的高效存储与查询。2.针对WB-Index索引结构,提出了高效的索引构建方法。由于数据流流速快,索引的构建效率至关重要。针对底层索引,提出基于并行排序的预装载B+树批量构... 

【文章来源】:浙江工业大学浙江省

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

面向大数据流的分布式B+树索引构建


不同流元组数量下排序线程数量对排序性能的影响

索引,时延,底层,线程


图 4-6 不同流元组数量下排序线程数量对排序性能的影响re 4-6. Sort delay vs. the number of threads in different amount of tupl果如图 4-6 所示,当数据量较小时,单线程排序性能优于多线据量达到一定量级后,并行排序才会具有优势。此外,当线程后,随着线程数量的增加,最终的排序时间反而会增加,这是量会导致最后归并排序时长增加,也会增加线程切换的时间开节的理论分析结论。由实验结果可得,当数据量为 100 万和 1程排序的性能最优。 小节分析可得,底层 B+树索引构建过程中,在窗口数量、排定的情况下,分片数 NSlice会影响构建时延。本实验评估了分树索引的构建时延的影响。实验也对比了底层索引构建过程中B+树骨架构建+预装载时间、B+树赋值时间的占比情况。实验 20 秒,窗口数据量为 2000 万条,即模拟的数据流平均流速为

时延,组数,预排序,数据流


浙江工业大学硕士学位论文结果如图 4-7 所示,底层索引的构建时延随着分片数的增加有着,这符合 4.2 小节中理论计算得出的结论。当分片数量超过 25构建时延基本稳定,且在分片数为 35 左右时构建时延达到最小中,排序时延占构建时延的 70%~80%的左右,其他阶段的时间固定,这也证明了排序时延直接决定了构建时延。对于索引构高性能服务器,通过提高排序性能来减少构建时延。流具有波动性,每个时间窗口的数据量存在较大的差异。本实验速的数据流来考察底层索引的构建性能。相比于传统的 B+树批提方法通过预排序和增加构建并行度的方法来提高构建效率,同数据流流速下两种 B+树构建方法的性能。实验中设置的窗口片数量设置为 35。

【参考文献】:
期刊论文
[1]一种面向HDFS的多层索引技术[J]. 何龙,陈晋川,杜小勇.  软件学报. 2017(03)
[2]面向大数据的分布式流处理技术综述[J]. 张鹏,李鹏霄,任彦,林海伦,杨嵘,郑超.  计算机研究与发展. 2014(S2)
[3]大数据流式计算:关键技术及系统实例[J]. 孙大为,张广艳,郑纬民.  软件学报. 2014(04)
[4]列存储数据库关键技术综述[J]. 李超,张明博,邢春晓,胡劲松.  计算机科学. 2010(12)
[5]流数据分析与管理综述[J]. 金澈清,钱卫宁,周傲英.  软件学报. 2004(08)



本文编号:3033288

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3033288.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2148***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com