基于Apache Spark的公共自行车使用状况分析
发布时间:2018-03-28 09:25
本文选题:公共自行车 切入点:大数据分析 出处:《太原理工大学》2017年硕士论文
【摘要】:随着我国乃至世界范围内的城镇化进程的推进,城市交通正面临前所未有的压力。一方面交通拥堵造成了极大的时间浪费,由此带来不可预估的直接或间接的经济损失;另一方面大量的用车还带来了极大的环境污染。近几年来公共自行车作为一种新型的公共交通出行方式受到了广泛的关注。它扩展了传统公共交通,如公交车、地铁等不能触及的城市交通出行的末端,很大程度的解决了公共交通“最后一公里”的问题。但是由于城市出行的不确定性,特别是潮汐现象等造成了公共自行车经常出现“借车难”和“还车难”的现象。本文针对公共自行车历史数据量大、数据结果展示复杂、影响公共自行车使用的因素复杂等诸多问题,对第三代公共自行车的使用特性和使用量预测进行了基于Apache Spark大数据平台的分析与研究。本文主要完成的研究内容如下:(1)阐述了公共自行车作为城市出行中重要的组成部分对绿色出行、倡导低碳生活的重要意义,以及在大数据时代背景下,公共自行车项目使用大数据工具的必要性。(2)通过对大数据工具的梳理,搭建了以Apache Spark为核心的公共自行车使用分析的大数据处理平台,并通过D3.js、Carto、Python和R等工具和编程语言实现数据的可视化展示。(3)以美国纽约市的Citi Bike公共自行车系统的开源数据作为本文实验数据,使用Spark SQL和Spark Dataframe编程实现对公共自行车用户和站点两个角度的使用状况的统计与分析。总结了不同用户类型对公共自行车使用的影响;并使用K均值聚类算法对站点的使用规律做了分析。(4)基于Spark MLlib机器学习库,使用随机森林和梯度提升回归树两种算法实现对Citi Bike每日使用量的预测。以历史天气数据为决策树特征进行模型建立,并对所建立模型结果进行了评价,验证了所选算法的可靠性。
[Abstract]:This paper analyzes the usage characteristics and usage of public bicycles by using Spark SQL and Spark Dataframe .
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:U491.225;TP311.13
【参考文献】
相关期刊论文 前5条
1 吴栋栋;邵毅;景谦平;霍振彬;;北京交通拥堵引起的生态经济价值损失评估[J];生态经济;2013年04期
2 朱玮;庞宇琦;王德;余雄伟;;上海市闵行区公共自行车出行特征研究[J];上海城市规划;2012年06期
3 李黎辉;陈华;孙小丽;;武汉市公共自行车租赁点布局规划[J];城市交通;2009年04期
4 耿雪;田凯;张宇;黎晴;;巴黎公共自行车租赁点规划设计[J];城市交通;2009年04期
5 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
相关硕士学位论文 前2条
1 鲍娜;城市公共自行车租赁点选址决策及调度模型研究[D];长安大学;2012年
2 李婷婷;城市公共自行车租赁点选址规划研究[D];北京交通大学;2010年
,本文编号:1675725
本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/1675725.html