基于大数据Hadoop平台的出租车载客热点区域挖掘研究
本文关键词:基于大数据Hadoop平台的出租车载客热点区域挖掘研究,,由笔耕文化传播整理发布。
【摘要】:随着国民经济的发展以及城市化进程的推进,作为城市公共交通重要方式之一的出租车数量在不断地增长。由于出租车上都安装有GPS终端,这些装置会定时向出租车调度中心发送实时状态信息,如车辆经纬度信息、速度、载客状态等。随时间的积累,调度中心采集并保存了庞大的出租车数据,如何从这些出租车数据中挖掘出有用信息成为当前一个热门的研究领域。通过对出租车数据进行处理和聚类挖掘,充分挖掘出租车载客热点区域,可以为出租车的调度和管理提供信息辅助和决策支持,提高出租车的利用率。传统意义上的出租车数据处理及载客热点挖掘都是基于单台计算机的基础上进行的,受限于单台计算机的配置及性能,处理的出租车数量和运算速度有限。大数据Hadoop技术的出现解决了大量数据的存储和计算瓶颈,从而使大量出租车数据的处理及挖掘成为可能。本文依托于大数据Hadoop平台研究出租车载客热点区域,主要工作如下:第一,在实验室条件下搭建完全分布模式的Hadoop集群实验平台,包括硬件环境和软件环境部署。设计了排序和检索两个实验测试了该集群与单机的性能,验证了该集群比单机更加适合出租车大数据的海量分析处理,数据量越大,优势越明显。第二,出租车数据含有大量的异常数据,而且数据杂乱,必须对数据进行预处理。针对北京市1.4万辆出租车产生的500G数据,本文利用实验室搭建的Hadoop集群平台对该出租车数据进行预处理操作,首先实现了原始出租车数据上传到Hadoop集群平台、进而设计了基于Hadoop的MapReduce计算框架的处理程序完成对出租车数据的清洗、按车辆编号和时间进行的二次排序以及载客点经纬度坐标提取等操作。第三,研究了大数据平台下的K-Means聚类算法,设计了一种改进的基于MapReduce计算框架的并行K-Means聚类算法,并通过加速比、扩展率和数据伸缩率三个实验分析验证了所设计的算法具有良好的并行性能,适合对大量出租车载客点进行聚类挖掘。然后利用该设计的算法对提取到的载客点进行聚类以挖掘出租车载客热点区域。最后利用ArcGIS软件实现了载客热点区域的可视化,并结合北京实景地图完成对载客热点区域的分析。
【关键词】:出租车 大数据Hadoop 载客热点 并行K-Means聚类
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-18
- 1.1 研究背景及目的11-12
- 1.2 研究现状12-15
- 1.2.1 大数据研究现状12-14
- 1.2.2 出租车数据应用研究现状14-15
- 1.3 论文内容15-16
- 1.4 论文结构16-18
- 2 数据挖掘及聚类算法18-29
- 2.1 数据挖掘18-22
- 2.1.1 数据挖掘概念及分类18
- 2.1.2 数据挖掘的过程18-21
- 2.1.3 数据挖掘的主要功能21-22
- 2.2 聚类算法22-28
- 2.2.1 聚类算法概述22-23
- 2.2.2 聚类算法主要分类23-25
- 2.2.3 K-Means聚类算法25-28
- 2.3 本章小结28-29
- 3 大数据平台搭建29-42
- 3.1 大数据平台-Hadoop29-36
- 3.1.1 Hadoop概述29-31
- 3.1.2 分布式文件系统HDFS31-33
- 3.1.3 并行计算架构MapReduce33-36
- 3.2 实验室环境下Hadoop集群搭建36-39
- 3.2.1 Hadoop硬件环境部署36-37
- 3.2.2 Hadoop软件环境部署37-39
- 3.3 系统性能分析测试39-41
- 3.3.1 排序实验40
- 3.3.2 检索实验40-41
- 3.4 本章小结41-42
- 4 出租车大数据的预处理42-52
- 4.1 北京市出租车数据格式介绍42-43
- 4.2 北京市出租车数据预处理43-51
- 4.2.1 出租车原始数据上传44-46
- 4.2.2 出租车原始数据清洗46-48
- 4.2.3 出租车数据二次排序处理48-51
- 4.3 本章小结51-52
- 5 基于Hadoop平台的热点区域挖掘及可视化52-65
- 5.1 基于Hadoop平台的聚类算法实现和热点区域挖掘52-60
- 5.1.1 K-Means算法的MapReduce并行化设计实现52-56
- 5.1.2 算法并行性能分析56-58
- 5.1.3 出租车载客热点区域挖掘58-60
- 5.2 ArcGIS出租车载客热点区域可视化60-64
- 5.2.1 ArcGIS电子地图平台60
- 5.2.2 载客热点的可视化及分析60-64
- 5.3 本章小结64-65
- 6 总结与展望65-67
- 6.1 总结65
- 6.2 展望65-67
- 参考文献67-70
- 作者简历70-72
- 学位论文数据集72
【相似文献】
中国期刊全文数据库 前10条
1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
6 ;大数据不等于Hadoop[J];办公自动化;2014年06期
7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
9 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
中国重要报纸全文数据库 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
中国硕士学位论文全文数据库 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
本文关键词:基于大数据Hadoop平台的出租车载客热点区域挖掘研究,由笔耕文化传播整理发布。
本文编号:352206
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/352206.html