城市时空热点查询及优化
发布时间:2021-01-31 17:23
城市时空热点指城市居民来往次数多、交通流量大的时空区域。确定城市时空热点在城市基础设施建设、交通规划、商铺选址、打击犯罪等公共服务领域有大量的应用。目前的热点检测通常是在收集到的全部出租车轨迹上,采用Getis-Ord Gi*统计方法,把轨迹按照时空立方单元划分,计算所有轨迹数据覆盖下的热点单元,作为城市时空热点。随着实际应用的扩展,人们对于城市时空热点检测有了更高的要求,希望根据需求定制城市时空热点检测。不同需求的热点检测使用不同的数据,但是现有的热点检测方法是使用海量历史数据进行一次性计算,占用内存大,计算时间长。这样得到的热点往往不能满足众多的实际需要,当轨迹数据更新或进行不同需求的热点检测时,需要重新计算热点。由于积累的轨迹数量庞大和计算复杂,现有检测算法的优化重点放在了如何应对海量的数据上,从目前已知的文献中没有发现专门针对不同需求进行城市时空热点检测的方法。针对上述问题,本文研究参数化的“城市时空热点查询”,设置五类符合实际需求的查询参数(地理范围、日期范围、热点粒度、时间组织方式和热点数目),通过适当的数据组织,满足多参数查询,...
【文章来源】:太原理工大学山西省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 本文研究的背景与意义
1.2 相关研究现状
1.3 本文的主要研究内容
1.4 论文组织结构
1.5 本章小结
第二章 相关工作综述
2.1 基于Gi*统计量的城市时空热点检测方法综述
2.1.1 基于Gi*统计量的城市时空热点检测方法详述
2.1.2 用Spark分布式计算城市时空热点算法详述
2.2 大数据技术框架介绍
2.2.1 Hadoop组件
2.2.2 Spark计算框架
2.3 Hadoop DFS上的索引技术
第三章 城市时空热点查询
3.1 城市时空热点查询定义
3.2 轨迹数据的组织
3.2.1 组织轨迹数据的思路
3.2.2 数据组织
3.2.3 数据访问
3.3 查询过程
第四章 查询优化
4.1 检测算法的优化技术
4.1.1 二次job解决数据倾斜
4.1.2 RDD元素重构优化shuffle阶段
4.1.3 Java层面上的优化技术
4.2 采样过滤优化策略
4.2.1 采样过滤优化策略的思路
4.2.2 优化策略
第五章 实验分析
5.1 实验环境与数据
5.2 城市时空热点检测算法优化效率分析
5.2.1 缓解数据倾斜
5.2.2 优化shuffle
5.2.3 技术细节优化
5.3 城市时空热点查询效率分析
5.3.1 不同数据量的城市时空热点查询响应时间
5.3.2 针对不同参数的查询
5.4 采样过滤策略实验分析
5.4.1 采样参数确定
5.4.2 采样效率分析
5.5 小结
第六章 总结与展望
6.1 本文工作总结
6.2 工作展望
参考文献
致谢
攻读硕士学位期间发表的论文
【参考文献】:
期刊论文
[1]CSPRJ:基于数据倾斜的MapReduce连接查询算法[J]. 周娅,魏夏飞,熊晗,胡彩林,李玲. 小型微型计算机系统. 2018(02)
[2]基于出租车轨迹数据的城市热点出行区域挖掘[J]. 郑林江,赵欣,蒋朝辉,邓建国,夏冬,刘卫宁. 计算机应用与软件. 2018(01)
[3]基于增量式分区策略的MapReduce数据均衡方法[J]. 王卓,陈群,李战怀,潘巍,尤立. 计算机学报. 2016(01)
[4]五种快速序列化框架的性能比较[J]. 史栋杰. 电脑知识与技术. 2010(34)
博士论文
[1]基于轨迹聚类的城市热点区域提取与分析方法研究[D]. 赵鹏祥.武汉大学 2015
硕士论文
[1]Hadoop YARN资源分配机制的研究与改进[D]. 陈袁春.华中科技大学 2017
[2]基于DBSCAN聚类算法的研究与应用[D]. 冯振华.江南大学 2016
[3]基于出租车轨迹的居民出行热点路径和区域挖掘[D]. 冯琦森.重庆大学 2016
[4]基于Hadoop的商品推荐系统研究与应用[D]. 李黎明.湖南大学 2016
本文编号:3011290
【文章来源】:太原理工大学山西省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 本文研究的背景与意义
1.2 相关研究现状
1.3 本文的主要研究内容
1.4 论文组织结构
1.5 本章小结
第二章 相关工作综述
2.1 基于Gi*统计量的城市时空热点检测方法综述
2.1.1 基于Gi*统计量的城市时空热点检测方法详述
2.1.2 用Spark分布式计算城市时空热点算法详述
2.2 大数据技术框架介绍
2.2.1 Hadoop组件
2.2.2 Spark计算框架
2.3 Hadoop DFS上的索引技术
第三章 城市时空热点查询
3.1 城市时空热点查询定义
3.2 轨迹数据的组织
3.2.1 组织轨迹数据的思路
3.2.2 数据组织
3.2.3 数据访问
3.3 查询过程
第四章 查询优化
4.1 检测算法的优化技术
4.1.1 二次job解决数据倾斜
4.1.2 RDD元素重构优化shuffle阶段
4.1.3 Java层面上的优化技术
4.2 采样过滤优化策略
4.2.1 采样过滤优化策略的思路
4.2.2 优化策略
第五章 实验分析
5.1 实验环境与数据
5.2 城市时空热点检测算法优化效率分析
5.2.1 缓解数据倾斜
5.2.2 优化shuffle
5.2.3 技术细节优化
5.3 城市时空热点查询效率分析
5.3.1 不同数据量的城市时空热点查询响应时间
5.3.2 针对不同参数的查询
5.4 采样过滤策略实验分析
5.4.1 采样参数确定
5.4.2 采样效率分析
5.5 小结
第六章 总结与展望
6.1 本文工作总结
6.2 工作展望
参考文献
致谢
攻读硕士学位期间发表的论文
【参考文献】:
期刊论文
[1]CSPRJ:基于数据倾斜的MapReduce连接查询算法[J]. 周娅,魏夏飞,熊晗,胡彩林,李玲. 小型微型计算机系统. 2018(02)
[2]基于出租车轨迹数据的城市热点出行区域挖掘[J]. 郑林江,赵欣,蒋朝辉,邓建国,夏冬,刘卫宁. 计算机应用与软件. 2018(01)
[3]基于增量式分区策略的MapReduce数据均衡方法[J]. 王卓,陈群,李战怀,潘巍,尤立. 计算机学报. 2016(01)
[4]五种快速序列化框架的性能比较[J]. 史栋杰. 电脑知识与技术. 2010(34)
博士论文
[1]基于轨迹聚类的城市热点区域提取与分析方法研究[D]. 赵鹏祥.武汉大学 2015
硕士论文
[1]Hadoop YARN资源分配机制的研究与改进[D]. 陈袁春.华中科技大学 2017
[2]基于DBSCAN聚类算法的研究与应用[D]. 冯振华.江南大学 2016
[3]基于出租车轨迹的居民出行热点路径和区域挖掘[D]. 冯琦森.重庆大学 2016
[4]基于Hadoop的商品推荐系统研究与应用[D]. 李黎明.湖南大学 2016
本文编号:3011290
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3011290.html