电动自行车轨迹数据分析与可视化相关技术研究
发布时间:2020-09-07 16:01
随着低碳环保社会的发展,城市规模的不断扩大,电动自行车由于其成本低廉、操作灵活、骑行便捷等特点,已成为我国许多城市重要的出行方式之一。近年来,随着电动自行车行业的快速发展,与之相关的交通和社会治安问题也层出不穷。为了解决日益增长的电动自行车数量和有限道路之间的矛盾,政府部门需要全面深入地了解电动自行车群体的行为特征,以加强对电动自行车的管理,从而提高城市系统的服务水平和管理效率。本文基于海量的电动自行车轨迹数据开展了系统性的研究工作,对电动自行车用户的行为进行深入地分析,并构建了功能丰富的可视化交互系统。具体研究内容如下:本文基于大数据平台对电动自行车数据进行清洗,针对清洗后的轨迹数据,设计一种基于速度的时间聚类算法来提取用户在运动过程中的停留点,通过基于Spark的K-means++算法对用户的停留点进行聚类分析,得到用户热点停留区域。为得到用户的居住地信息,针对不同职业背景的用户,设计不同的聚类算法去自动有效地挖掘用户居住地信息。在数据分析的基础之上,本文还构建了基于大数据平台的Web端可视化系统,方便人们直观地分析和理解电动自行车数据,该系统包括电动自行车数据地图、轨迹移动等模块,在该系统中,前端页面经常需要根据指定字段或者几个字段组合检索存储在HBase里的电动自行车数据,为了提高查询的速度,本文提出了一种基于Phoenix来实现HBase二级索引的方法。最后对HBase与Phoenix集成的性能进行测试,实验表明在对HBase表数据建立二级索引后,数据的查询速度会有显著的提升。本文将大数据和WEB可视化系统进行结合,对电动自行车用户的行为进行分析。根据其分析的数据特征构建了基于大数据平台的电动自行车可视化系统,并利用 Phoenix为HBase创建二级索引,提高了可视化系统的资询速度。为本文研究工作的实际应用提供了可能。
【学位单位】:沈阳理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13;U491.225
【部分图文】:
在大数据时代的背景下,不仅是数据量开始了爆炸式的增长,数据种类也开逡逑始变得更加复杂,单机己经无法存储这些海量的数据,需要多台机器共同去存储。逡逑HDFS的设计思想就是把要存储的海量数据划分为不同的小文件,再将这些小文件逡逑存储到不同的机器节点上。HDFS可以理解为对磁盘的更高一级的抽象,它将数据逡逑存储在多台机器节点上的磁盘内。HDFS分布式文件管理系统作为Hadoop的生态逡逑圈基础,默认会对数据进行备份,它是通过机架感知的方式分配每一个数据副本逡逑的,从而保证数据的安全性。HDFS是由NameNode和DataNode两个进程维护的,逡逑为了避免单点故障,配置了主备NameNode,同一时刻只有主NameNode向外提供逡逑服务,只有当主NameNode进程宕机了,Zookeeper会将备NameNode切换为主逡逑NameNode继续向外提供服务,保证HDFS文件系统的高可靠性。NameNode维护逡逑着存储在HDFS上数据块的元数据,比如文件名、所属用户及拥有的权限等等,逡逑DataNode负责管理存储在本机上的数据块信息,DataNode定期向NameNode发送逡逑心跳包报告自身所拥有的数据块信息NameNode和DataNode互相通信来保证逡逑客户端对HDFS文件的读写操作,HDFS分布式文件系统的主从架构如图2.1所示。逡逑
Hive底层执行引擎会把HSQL语句转化为MapReduce任务,比单纯的用Java逡逑语言编写MapReduce程序来说,Hive具有使用简单、开发效率高等特点,非常适逡逑合对结构化数据进行统计分析,Hive的体系结构如图2.3所示。逡逑She丨1接口逦JDBC/ODBC客户端逦Web接口逡逑\逦Thrift服务器■逦/逡逑\逦淲^逦/逡逑^逦编译器逦^一>逦元数据库逡逑执行器逡逑MapReduce邋?逦>邋数据仓库逦HDFS逡逑图2.3邋Hive体系结构逡逑Fig.2.3邋Hive邋architecture逡逑Hive是一个针对海量数据进行统计分析的数据仓库[4|]。:Hive的运行是建立逡逑在Hadoop框架之上的,Hive对用户提供了一系列的HSQL语法,用户可以使用逡逑HSQL语句对存储在HDFS上的数据进行统计分析,Hive底层引擎默认是逡逑MapReduce,通过源码编译以及相关配置可以将其改为Spark或者Tez执行引擎,逡逑以此来加快数据处理的效率。在默认情况下,Hive可以理解为MapReduce的客户逡逑端,Hive底层执行^)丨擎将用户编写的HSQL语句转化为MapReduce任务,在Hadoop逡逑-14-逡逑
逡逑HBase数据库里的物理表在在行的方向上,分割为多个regi0n块,每个regi0n逡逑块分布在多台机器节点上,物理存储模型如图2.4所示。逡逑Tablel逦"Tabl^ServerL邋1逡逑r逦i逦f邋 ̄^邋^ri逡逑Region邋j逦Region逡逑S茫垮澹垮危澹澹义希蹋颍澹戾澹叔澹遥
本文编号:2813551
【学位单位】:沈阳理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13;U491.225
【部分图文】:
在大数据时代的背景下,不仅是数据量开始了爆炸式的增长,数据种类也开逡逑始变得更加复杂,单机己经无法存储这些海量的数据,需要多台机器共同去存储。逡逑HDFS的设计思想就是把要存储的海量数据划分为不同的小文件,再将这些小文件逡逑存储到不同的机器节点上。HDFS可以理解为对磁盘的更高一级的抽象,它将数据逡逑存储在多台机器节点上的磁盘内。HDFS分布式文件管理系统作为Hadoop的生态逡逑圈基础,默认会对数据进行备份,它是通过机架感知的方式分配每一个数据副本逡逑的,从而保证数据的安全性。HDFS是由NameNode和DataNode两个进程维护的,逡逑为了避免单点故障,配置了主备NameNode,同一时刻只有主NameNode向外提供逡逑服务,只有当主NameNode进程宕机了,Zookeeper会将备NameNode切换为主逡逑NameNode继续向外提供服务,保证HDFS文件系统的高可靠性。NameNode维护逡逑着存储在HDFS上数据块的元数据,比如文件名、所属用户及拥有的权限等等,逡逑DataNode负责管理存储在本机上的数据块信息,DataNode定期向NameNode发送逡逑心跳包报告自身所拥有的数据块信息NameNode和DataNode互相通信来保证逡逑客户端对HDFS文件的读写操作,HDFS分布式文件系统的主从架构如图2.1所示。逡逑
Hive底层执行引擎会把HSQL语句转化为MapReduce任务,比单纯的用Java逡逑语言编写MapReduce程序来说,Hive具有使用简单、开发效率高等特点,非常适逡逑合对结构化数据进行统计分析,Hive的体系结构如图2.3所示。逡逑She丨1接口逦JDBC/ODBC客户端逦Web接口逡逑\逦Thrift服务器■逦/逡逑\逦淲^逦/逡逑^逦编译器逦^一>逦元数据库逡逑执行器逡逑MapReduce邋?逦>邋数据仓库逦HDFS逡逑图2.3邋Hive体系结构逡逑Fig.2.3邋Hive邋architecture逡逑Hive是一个针对海量数据进行统计分析的数据仓库[4|]。:Hive的运行是建立逡逑在Hadoop框架之上的,Hive对用户提供了一系列的HSQL语法,用户可以使用逡逑HSQL语句对存储在HDFS上的数据进行统计分析,Hive底层引擎默认是逡逑MapReduce,通过源码编译以及相关配置可以将其改为Spark或者Tez执行引擎,逡逑以此来加快数据处理的效率。在默认情况下,Hive可以理解为MapReduce的客户逡逑端,Hive底层执行^)丨擎将用户编写的HSQL语句转化为MapReduce任务,在Hadoop逡逑-14-逡逑
逡逑HBase数据库里的物理表在在行的方向上,分割为多个regi0n块,每个regi0n逡逑块分布在多台机器节点上,物理存储模型如图2.4所示。逡逑Tablel逦"Tabl^ServerL邋1逡逑r逦i逦f邋 ̄^邋^ri逡逑Region邋j逦Region逡逑S茫垮澹垮危澹澹义希蹋颍澹戾澹叔澹遥
本文编号:2813551
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/2813551.html