面向服务的时空大数据统计分析平台研究及实现

发布时间:2021-01-07 05:17
  随着位置传感和对象监测技术及设备的普及,在智能交通、智慧城市等领域积累了海量的时空数据。时空数据是同时具有时间、空间属性,由特定对象产生的高维数据,由于其随对象生命周期持续生成,数量巨大,因此被称为时空大数据。因为其同时具有大数据技术特征以及多样化的分析需求,传统的数据分析方式不能很好满足众多领域下时空大数据的分析处理需求,特别是在快速满足不同领域不同业务的统计分析需求方面。因此如何能方便地从多维时空大数据中选择用户所需的维度以及方法快速进行统计分析,挖掘时空大数据背后的潜在价值,成为目前急需解决的问题。针对该问题,本文采用面向服务的软件方法来提高时空大数据统计分析应用的开发效率,主要开展了以下四方面工作:1.针对传统方法无法满足时空大数据统计分析需求的问题,通过对时空大数据统计分析需求的归纳,设计了用于支持时空大数据的统计分析的两类基础服务模型,即数据服务和功能服务模型。其中数据服务主要通过多维度时空数据封装得到,主要为功能服务提供分析操作的数据来源;功能服务则通过对统计分析过程中的预处理、统计计算和结果可视化三个环节的处理功能进行归纳得到。通过两类服务模型可以为时空大数据的服务化工... 

【文章来源】:北方工业大学北京市

【文章页数】:80 页

【学位级别】:硕士

【部分图文】:

面向服务的时空大数据统计分析平台研究及实现


Hadoop平台的基本组成与生态系统

数据,关键字段,时空,方式


第三章时空大数据服务模型16图3-1收费数据中的关键字段由于收费数据的体量十分庞大,选择合适的接入方式存储收费数据这一工作十分重要。针对收费数据的数据量比较大并且对数据查询的要求,可以选择HBase数据库作为数据接入服务的输出存储。HBase数据库是Hadoop集群上的支持高并发读写的数据库。为了满足更小粒度的时空数据的分析和统计,因此选择空间属性中最小的粒度站点,分别接入不同时间粒度5分钟、1小时、1天、1个月的收费数据,存入HBase数据库。HBase数据库中唯一确定一条记录的标识是行键[43],所以选择合适的行键对于查询起着十分重要的作用。过于简单的行键可能无法唯一确定一条数据,造成查询结果不正确。而过于复杂的行键可能会导致需要扫描的数据比较多,降低查询效率。因此既要满足行键的简单性又要满足行键的唯一确定性。结合时空大数据的时空属性,将车辆出口时间和出口收费站ID进行拼接。由此,设计出的数据接入服务如图3-2所示:图3-2数据接入服务

数据,时空,数据库,大数


第三章时空大数据服务模型16图3-1收费数据中的关键字段由于收费数据的体量十分庞大,选择合适的接入方式存储收费数据这一工作十分重要。针对收费数据的数据量比较大并且对数据查询的要求,可以选择HBase数据库作为数据接入服务的输出存储。HBase数据库是Hadoop集群上的支持高并发读写的数据库。为了满足更小粒度的时空数据的分析和统计,因此选择空间属性中最小的粒度站点,分别接入不同时间粒度5分钟、1小时、1天、1个月的收费数据,存入HBase数据库。HBase数据库中唯一确定一条记录的标识是行键[43],所以选择合适的行键对于查询起着十分重要的作用。过于简单的行键可能无法唯一确定一条数据,造成查询结果不正确。而过于复杂的行键可能会导致需要扫描的数据比较多,降低查询效率。因此既要满足行键的简单性又要满足行键的唯一确定性。结合时空大数据的时空属性,将车辆出口时间和出口收费站ID进行拼接。由此,设计出的数据接入服务如图3-2所示:图3-2数据接入服务


本文编号:2961988

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2961988.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82a10***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com