大规模轨迹数据处理系统研究
发布时间:2021-11-20 12:56
近年来,随着GPS、手机等定位设备的发展,位置信息的获取变得越来越容易。移动电话、出租车、公交车等每天都会产生大量的轨迹数据。这些轨迹数据具有数据量大、维度高的特点,且隐藏着大量可以被挖掘的信息。很多科技公司如国外的Uber、国内的滴滴出行、高德等都会利用这些轨迹数据提供基于位置的服务,比如道路推荐、路线规划等等。大规模的轨迹数据与轨迹数据应用之间需要一个沟通的桥梁,这个桥梁就是轨迹数据处理系统,也是本文要做的工作。首先,对于海量的轨迹数据,本文设计了轨迹数据处理系统,该系统能够满足轨迹数据的收集、处理与存储的功能需求,且具有拓展性好、可靠性高、实时性强的特点。系统整体可以分为三个模块,即轨迹数据的收集模块、轨迹数据的处理模块和轨迹数据的存储模块。存储模块由于数据库HBase的分区问题导致了轨迹数据写入性能的下降,针对这种情况,本文提出了预分区策略,并结合轨迹数据的分布特点和轨迹数据的时间属性合理设置了分区的粒度和分区的大小。实验部分验证了预分区方法对存储模块性能的提高。其次,本文针对轨迹数据处理中常用的两种查询,精确查询和时空范围查询在存储模块进行了实现。通常的数据存储模块都带有查询...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状与分析
1.2.1 轨迹数据的处理和分析
1.2.2 大数据流式处理
1.2.3 轨迹数据的存储和查询
1.3 论文主要工作
1.4 论文组织架构
2 背景知识和相关技术分析
2.1 Hadoop大数据处理框架
2.1.1 Hadoop简介
2.1.2 MapReduce简介
2.2 Kafka消息队列
2.3 HBase数据库
2.3.1 HBase数据模型
2.3.2 HBase的架构与原理
2.4 Zookeeper介绍
2.5 Spark计算框架
2.5.1 Spark介绍
2.5.2 Spark Streaming流式计算
2.6 本章小结
3 轨迹数据处理系统设计与实现
3.1 系统整体架构
3.2 系统详细设计
3.3 数据收集模块的设计
3.4 数据汇总模块的设计
3.5 数据处理模块
3.5.1 数据实时处理模块
3.5.2 数据离线处理模块
3.6 数据存储模块的设计
3.6.1 数据表结构及行键设计
3.6.2 基于时间域的预分区策略
3.7 本章小结
4 轨迹数据查询方案设计
4.1 精确查询
4.1.1 相关概念
4.1.2 HBase的检索机制
4.1.3 GeoHash编码与行键设计
4.1.4 轨迹数据存储模型与缓存机制
4.2 时空范围查询
4.2.1 复合行键
4.2.2 自定义Filter
4.2.3 分层索引结构
4.3 本章小结
5 实验验证与性能测试
5.1 实验环境
5.2 数据集
5.3 预分区性能测试
5.4 精确查询实验分析
5.5 时空查询实验分析
5.5.1 实验参数设置
5.5.2 空间查询分析
5.5.3 时间查询分析
5.5.4 时空查询分析
5.6 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
【参考文献】:
期刊论文
[1]轨迹大数据:数据处理关键技术研究综述[J]. 高强,张凤荔,王瑞锦,周帆. 软件学报. 2017(04)
[2]大数据研究综述[J]. 涂新莉,刘波,林伟伟. 计算机应用研究. 2014(06)
本文编号:3507369
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景和意义
1.2 国内外研究现状与分析
1.2.1 轨迹数据的处理和分析
1.2.2 大数据流式处理
1.2.3 轨迹数据的存储和查询
1.3 论文主要工作
1.4 论文组织架构
2 背景知识和相关技术分析
2.1 Hadoop大数据处理框架
2.1.1 Hadoop简介
2.1.2 MapReduce简介
2.2 Kafka消息队列
2.3 HBase数据库
2.3.1 HBase数据模型
2.3.2 HBase的架构与原理
2.4 Zookeeper介绍
2.5 Spark计算框架
2.5.1 Spark介绍
2.5.2 Spark Streaming流式计算
2.6 本章小结
3 轨迹数据处理系统设计与实现
3.1 系统整体架构
3.2 系统详细设计
3.3 数据收集模块的设计
3.4 数据汇总模块的设计
3.5 数据处理模块
3.5.1 数据实时处理模块
3.5.2 数据离线处理模块
3.6 数据存储模块的设计
3.6.1 数据表结构及行键设计
3.6.2 基于时间域的预分区策略
3.7 本章小结
4 轨迹数据查询方案设计
4.1 精确查询
4.1.1 相关概念
4.1.2 HBase的检索机制
4.1.3 GeoHash编码与行键设计
4.1.4 轨迹数据存储模型与缓存机制
4.2 时空范围查询
4.2.1 复合行键
4.2.2 自定义Filter
4.2.3 分层索引结构
4.3 本章小结
5 实验验证与性能测试
5.1 实验环境
5.2 数据集
5.3 预分区性能测试
5.4 精确查询实验分析
5.5 时空查询实验分析
5.5.1 实验参数设置
5.5.2 空间查询分析
5.5.3 时间查询分析
5.5.4 时空查询分析
5.6 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢
【参考文献】:
期刊论文
[1]轨迹大数据:数据处理关键技术研究综述[J]. 高强,张凤荔,王瑞锦,周帆. 软件学报. 2017(04)
[2]大数据研究综述[J]. 涂新莉,刘波,林伟伟. 计算机应用研究. 2014(06)
本文编号:3507369
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3507369.html