当前位置:主页 > 科技论文 > 路桥论文 >

公共交通运营大数据聚类分析方法及应用研究

发布时间:2020-10-26 05:34
   智能化的公共交通发展建设是当今智慧城市建设的主体之一,利用大数据分析技术辅助解决交通问题、提高公共交通工具运载效率,改善公共交通环境,实现智慧交通,是智能公共交通行业的发展诉求和趋向。Hadoop是一个开源的分布式云计算平台,能满足大数据处理需求,适用于大数据集的分布式处理。Hadoop在数据挖掘领域应用广泛,数据挖掘技术利用Hadoop平台作为数据处理载体,能提高数据处理效率。数据挖掘算法中运用普遍的K-means聚类算法能有效处理大数据集,简单易用,但其k值人为选取以及初始聚类中心随机选取使得算法存在较大的不稳定性,且在算法计算每个数据样本到质心的距离时会产生较多计算冗余使得算法运算效率大大降低。在大数据背景下,围绕智能公共交通的Hadoop数据分析系统和数据挖掘算法的K-means聚类算法研究,本文主要完成工作及创新点如下:(1)针对数据分析中需应用到的数据挖掘算法中的传统K-means聚类算法的K值人为选取以及初始聚类质心随机选取的问题,提出了一种改进的Canopy-Kmeans算法:在Canopy算法中采用“中值与最大距离积法”原则以及在K-means算法迭代过程中加入距离计算判定方法。并利用Matlab进行了改进算法的仿真实验对比分析。实验证明改进算法更具有良好的时效性和准确性。(2)针对智能化公共交通发展现状分析了公共交通数据海量、分散、多源、异构等现状,根据Hadoop集群所具有的海量数据存储、分析以及集群的高扩展性等优势,设计并实现了以数据采集、数据存储和数据分析以及结果可视化展示四个模块组成的基于Hadoop框架技术的数据分析系统。(3)利用搭建的数据分析系统对仙桃市公交公司历史运营数据进行了分析实验:结合K-means聚类算法按照乘客出行人次和营收对公交线路进行了分类运算;利用MapReduce的编程计算模型对公交公司2018年第一季度公交乘客数、公交线路日收入对比、乘客24小时乘车波动进行了分析。实验结果证明系统具备实用性和有效性。同时,数据分析结果对公交公司运营有一定指导性意义。(4)设计了基于MapReduce改进的Canopy-Kmeans算法模型,并利用改进的Canopy-Kmeans聚类算法在数据分析系统上对公交公司历史相关运营数据进行了数据分析应用,并分析了并行化算法性能。应用及性能分析结果证明改进算法能进行良好的并行化运算且更高效。
【学位单位】:武汉轻工大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:U491.17;TP311.13
【部分图文】:

生态系统,架构,工作任务,工作者


DataNodes上执行此工作任务。如是,NameNode和JobTracker是为管理者,??DataNodes和TaskTrackers是为工作者,共同配合完成任务的执行操作[27〗。??Hadoop集群的整体部署架构如图2-2所示:??Master??NameNode?JobTracker??U=q==#=zczd_??、、、】?、、■'、??Slave?Slave?Slave??■?????,??私’?^?、冷?\??DataNode?TaskTracker?DataNode?TaskTracker?DataNode?TaskTracker??图2-2?Hadoop集群的整体部署架构??12??

架构图,架构,数据节点,名称空间


(分布式文件系统)?I??图2-1?Hadoop生态系统图??2_?3.?3?Hadoop工作架构??Hadoop是一个Map?/?Reduce框架,运作在HDFS或HBase?(列式存储数据??库)上。其本质是将一个整体较为复杂的工作分割成为若干单独的任务,分割的??小任务能够同时在不同的数据节点上运行。每个被分割的小任务在Map阶段执??行并行运算,最后在Reduce阶段合并运行的结果。??Hadoop集群采用了?Master/Slaves?(主从结构)的架构设计,NameNode?(名??称节点)是Master(主服务器),DataNode?(数据节点)是Slave(从服务器)。??NameNode和DataNodes负责处理HDFS的工作,其中,NameNode负责管理文??件系统的名称空间及外部用户访问的控制,DataNodes则响应来自HDFS和??NameNode的命令。??JobTracker?和?TaskTrackers?共同完成?MapReduce?的工作

架构图,架构


DataNode响应来自文件系统用户的请求并且提供数据读写服务。同时,DataNode??基于NameNode执行数据块创建,删除和冗余备份等工作。??客户端、DataNode以及NameNode三者之间的交互关系如图2-3所示:??NameNode?Metadata?(Name.?Replicas...)??元数据操^名称节点?—存储元数描??---??、客户端j?\??:广??读/?\??.....1???????\?_丨.丨丨..i?丨丨丨_??DataNode?DataNode??数据锯节点?)?数据据节点??\m?\?\mm\?????????……????机架1?\?/?机架2??写\?,?一、、、/写??图2-3?HDFS架构图??2.?5?MapReduce??2.?5.?1?MapReduce?概述??Hadoop另一个重要组成部分MapReduce是一个并行编程模型,它可以并行??的处理上TB级海量的大数据集,并且具有非常好的可靠性及容错性。MapReduce??数据集的整体处理过程可以分成为两个部分,即任务的分解和结果的汇总。在任??务处理过程中,MapReduce将海量数据集的操作分发给主节点下的各个子节点,??然后整合各子节点的处理结果分而治之共同完成数据
【参考文献】

相关期刊论文 前10条

1 吴腾奇;;智能交通系统构成及发展研究[J];汽车工业研究;2015年12期

2 陆化普;孙智源;屈闻聪;;大数据及其在城市智能交通系统中的应用综述[J];交通运输系统工程与信息;2015年05期

3 李正熙;;中国城市智能交通系统产业化发展趋势[J];自动化博览;2015年07期

4 段桂芹;;基于均值与最大距离乘积的初始聚类中心优化K-means算法[J];计算机与数字工程;2015年03期

5 董春涛;李文婷;沈晴霓;吴中海;;Hadoop YARN大数据计算框架及其资源调度机制研究[J];信息通信技术;2015年01期

6 谢然;;大数据社会的具体场景[J];互联网周刊;2014年22期

7 杨铭;;数据挖掘中聚类算法的分析与研究[J];网友世界;2014年15期

8 刘智慧;张泉灵;;大数据技术研究综述[J];浙江大学学报(工学版);2014年06期

9 赵清;唐菁;;电信业数据仓库体系结构及关键技术研究[J];信息通信技术;2013年06期

10 王德青;朱建平;谢邦昌;;主成分聚类分析有效性的思考[J];统计研究;2012年11期


相关博士学位论文 前1条

1 高联雄;智能公交系统数据挖掘研究与应用[D];北京邮电大学;2011年


相关硕士学位论文 前9条

1 苏金;基于Hadoop的物流历史数据聚类挖掘研究[D];西安工业大学;2017年

2 何晴;基于聚类的多层关联规则挖掘算法研究与改进[D];上海师范大学;2017年

3 黄亚萍;基于聚类分析的电子商务客户细分系统的设计与实现[D];江苏科技大学;2016年

4 刘越;K-means聚类算法的改进[D];广西师范大学;2016年

5 万旭;基于Hadoop平台的聚类算法研究[D];西安电子科技大学;2016年

6 宋媛;聚类分析中确定最佳聚类数的若干问题研究[D];延边大学;2013年

7 李存琛;海量数据分布式存储技术的研究与应用[D];北京邮电大学;2013年

8 袁勇;公交IC卡数据挖掘技术及应用研究[D];吉林大学;2009年

9 张涤;基于文化算法的聚类分析研究[D];西南交通大学;2008年



本文编号:2856572

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/2856572.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户08f83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com