HBase中基于时空特征的监测视频大数据关联查询研究
发布时间:2019-07-16 14:54
【摘要】:针对传统的时空索引构建、维护困难且实时查询效率低等问题,提出基于HBase的时空索引构造方法。该方法采用HBase作为监测视频大数据时空特征索引结构,通过Z填充曲线对空间特征进行降维存储,并利用时间、空间与属性特征之间的关联及依赖规则来安排rowkey索引键,可有效解决传统的时空索引构建、维护困难的缺陷。针对传统的时空索引实时查询效率低的问题,提出了基于Z曲线的时空关联查询算法。该算法对查询空间计算Z值范围和建立空间划分子集,利用划分后的时空特征进行列索引查询得到候选数据集并反查HBase索引表完成关联查询。实验结果表明,与传统的R树索引算法相比,提出的基于HBase的时空索引构造方法索引插入效率更高,提出的基于Z曲线的时空关联查询算法能够快速高效地处理时空关联查询。
文内图片:
图片说明: 入速度均比R-HBase快2~3倍,并且随着数据量的不断增大,R-HBase的插入速度明显降低,而ZRMF的插入速度则保持平稳。这是因为R-HBase为每个关键字都建立了一棵R树,而R树在插入数据时由于其负载平衡机制需要不断调整节点,并且随着数据量增多其调整得也越频繁和复杂,所以导致R-HBase插入速度随着数据量增加而下降较快。4.3.2查询分析1)数据量对算法的影响测试实验在数据量分别为50、100、200、400、800万条进行类比,查询条件为Q.G(1,4),Q.P(010100~010199),Q.T(20150307100000),得到的查询响应时间如图3所示。从图3中分析得知,R-HBase查询性能对数据量非常敏感,伴随着数据量的增长,性能降低得严重,这是因为R-HBase在读取数据时先将记录根节点信息的记录读取到内存中,,而后按照记录中的指针指示顺序寻找其他记录,直至找到满足条件的记录并将其取出为止,其时间复杂度直接与R-tree树高相关,数据量越大则R-tree越高,查询响应时间越长;而ZRFM、kd_ZRMF均采用连续的rowkeyRange读取列索引表中连续的整块数据作为候选集,查找效率更高。2)时空范围对算法的影响测试本实验将时间特征设置为连续的可变范围,采用连续属性特征序列进行算法测试,查询条件为Q.P(010100~010199),Q.T(20150307100000~20150307110000),测试空间范围Q.G在各个ZRange段时算法的查询响应时间。实验结果如表4所示。表4ZRMF、kd-ZRMF在不同空间范围的查询响应时间算法空间特征范围0~500~1000~2000~4000~500ZRMF7420351414392865kd-ZRMF1022656239801386R-HBase19134767317422694由表4中三种算法在不同的空间范围的查询时间结果得知,R-HBase、ZRMF和kd-ZRMF的查询响应时间随着查询范围的增大都有所增加?
文内图片:
图片说明: 入速度均比R-HBase快2~3倍,并且随着数据量的不断增大,R-HBase的插入速度明显降低,而ZRMF的插入速度则保持平稳。这是因为R-HBase为每个关键字都建立了一棵R树,而R树在插入数据时由于其负载平衡机制需要不断调整节点,并且随着数据量增多其调整得也越频繁和复杂,所以导致R-HBase插入速度随着数据量增加而下降较快。4.3.2查询分析1)数据量对算法的影响测试实验在数据量分别为50、100、200、400、800万条进行类比,查询条件为Q.G(1,4),Q.P(010100~010199),Q.T(20150307100000),得到的查询响应时间如图3所示。从图3中分析得知,R-HBase查询性能对数据量非常敏感,伴随着数据量的增长,性能降低得严重,这是因为R-HBase在读取数据时先将记录根节点信息的记录读取到内存中,而后按照记录中的指针指示顺序寻找其他记录,直至找到满足条件的记录并将其取出为止,其时间复杂度直接与R-tree树高相关,数据量越大则R-tree越高,查询响应时间越长;而ZRFM、kd_ZRMF均采用连续的rowkeyRange读取列索引表中连续的整块数据作为候选集,查找效率更高。2)时空范围对算法的影响测试本实验将时间特征设置为连续的可变范围,采用连续属性特征序列进行算法测试,查询条件为Q.P(010100~010199),Q.T(20150307100000~20150307110000),测试空间范围Q.G在各个ZRange段时算法的查询响应时间。实验结果如表4所示。表4ZRMF、kd-ZRMF在不同空间范围的查询响应时间算法空间特征范围0~500~1000~2000~4000~500ZRMF7420351414392865kd-ZRMF1022656239801386R-HBase19134767317422694由表4中三种算法在不同的空间范围的查询时间结果得知,R-HBase、ZRMF和kd-ZRMF的查询响应时间随着查询范围的增大都有所增加?
【作者单位】: 武汉大学计算机学院;
【基金】:国家水体污染控制与治理科技重大专项资助项目(2013ZX07503-001-06) 湖北省重大科技创新计划项目(2013AAA020)
【分类号】:TP311.13
本文编号:2515132
文内图片:
图片说明: 入速度均比R-HBase快2~3倍,并且随着数据量的不断增大,R-HBase的插入速度明显降低,而ZRMF的插入速度则保持平稳。这是因为R-HBase为每个关键字都建立了一棵R树,而R树在插入数据时由于其负载平衡机制需要不断调整节点,并且随着数据量增多其调整得也越频繁和复杂,所以导致R-HBase插入速度随着数据量增加而下降较快。4.3.2查询分析1)数据量对算法的影响测试实验在数据量分别为50、100、200、400、800万条进行类比,查询条件为Q.G(1,4),Q.P(010100~010199),Q.T(20150307100000),得到的查询响应时间如图3所示。从图3中分析得知,R-HBase查询性能对数据量非常敏感,伴随着数据量的增长,性能降低得严重,这是因为R-HBase在读取数据时先将记录根节点信息的记录读取到内存中,,而后按照记录中的指针指示顺序寻找其他记录,直至找到满足条件的记录并将其取出为止,其时间复杂度直接与R-tree树高相关,数据量越大则R-tree越高,查询响应时间越长;而ZRFM、kd_ZRMF均采用连续的rowkeyRange读取列索引表中连续的整块数据作为候选集,查找效率更高。2)时空范围对算法的影响测试本实验将时间特征设置为连续的可变范围,采用连续属性特征序列进行算法测试,查询条件为Q.P(010100~010199),Q.T(20150307100000~20150307110000),测试空间范围Q.G在各个ZRange段时算法的查询响应时间。实验结果如表4所示。表4ZRMF、kd-ZRMF在不同空间范围的查询响应时间算法空间特征范围0~500~1000~2000~4000~500ZRMF7420351414392865kd-ZRMF1022656239801386R-HBase19134767317422694由表4中三种算法在不同的空间范围的查询时间结果得知,R-HBase、ZRMF和kd-ZRMF的查询响应时间随着查询范围的增大都有所增加?
文内图片:
图片说明: 入速度均比R-HBase快2~3倍,并且随着数据量的不断增大,R-HBase的插入速度明显降低,而ZRMF的插入速度则保持平稳。这是因为R-HBase为每个关键字都建立了一棵R树,而R树在插入数据时由于其负载平衡机制需要不断调整节点,并且随着数据量增多其调整得也越频繁和复杂,所以导致R-HBase插入速度随着数据量增加而下降较快。4.3.2查询分析1)数据量对算法的影响测试实验在数据量分别为50、100、200、400、800万条进行类比,查询条件为Q.G(1,4),Q.P(010100~010199),Q.T(20150307100000),得到的查询响应时间如图3所示。从图3中分析得知,R-HBase查询性能对数据量非常敏感,伴随着数据量的增长,性能降低得严重,这是因为R-HBase在读取数据时先将记录根节点信息的记录读取到内存中,而后按照记录中的指针指示顺序寻找其他记录,直至找到满足条件的记录并将其取出为止,其时间复杂度直接与R-tree树高相关,数据量越大则R-tree越高,查询响应时间越长;而ZRFM、kd_ZRMF均采用连续的rowkeyRange读取列索引表中连续的整块数据作为候选集,查找效率更高。2)时空范围对算法的影响测试本实验将时间特征设置为连续的可变范围,采用连续属性特征序列进行算法测试,查询条件为Q.P(010100~010199),Q.T(20150307100000~20150307110000),测试空间范围Q.G在各个ZRange段时算法的查询响应时间。实验结果如表4所示。表4ZRMF、kd-ZRMF在不同空间范围的查询响应时间算法空间特征范围0~500~1000~2000~4000~500ZRMF7420351414392865kd-ZRMF1022656239801386R-HBase19134767317422694由表4中三种算法在不同的空间范围的查询时间结果得知,R-HBase、ZRMF和kd-ZRMF的查询响应时间随着查询范围的增大都有所增加?
【作者单位】: 武汉大学计算机学院;
【基金】:国家水体污染控制与治理科技重大专项资助项目(2013ZX07503-001-06) 湖北省重大科技创新计划项目(2013AAA020)
【分类号】:TP311.13
本文编号:2515132
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2515132.html