基于Hadoop的动车组故障诊断关键技术的研究与实现
本文关键词:基于Hadoop的动车组故障诊断关键技术的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着我国高速铁路近年来的不断发展,动车组已经开始大规模投入使用,现阶段已经积累了海量的动车组运行状况数据并以TB数量级增长。如何利用海量的动车组故障数据进行分析,并进一步指导动车组维修和保养工作,这对于动车组故障诊断具有重大意义。然而高速铁路动车组运行状况数据具有多样化、容量大、复杂度高、速度快等特点,传统的数据挖掘算法效率低下,实时性差,已经无法满足目前对于动车组关键部件故障诊断应用的需求。因此本文提出引入Hadoop分布式计算框架,该框架的Map/Reduce编程模型能够根据动车组数据的特点有针对性地解决现阶段动车组故障诊断中的存在的不足,因此有一定的理论和现实意义。本文提出了基于Hadoop分布式框架的动车组故障诊断大数据解决方案,并通过对基于Hadoop的C4.5分类算法的优化为提高动车组故障诊断的效率提供了有效方法,并在实际应用中得到了验证。本论文的工作有以下几方面:(1)在分析了MapReduce分布式计算框架、分布式文件系统HDFS、数据仓库Hive等Hadoop核心技术的基础上,给出了基于Hadoop的动车组故障分析大数据解决方案,搭建了Hadoop集群环境。(2)在算法选择上分析了原始C4.5算法在基于Hadoop平台动车组故障诊断中存在的不足,提出了两种改进算法并分别在准确性及可扩展性方面对原始C4.5算法进行了性能改进,集群的负载均衡能力得到提高。(3)将改进后的算法应用于本实验室的动车组故障真实数据场景下,并产生了相关的实验对比结果。实验表明,改进算法比原始C4.5算法在稳定性及可扩展性上有了明显提高,可满足大数据背景下动车组故障诊断的相关需求。论文所设计的动车组故障诊断方案满足了特定的要求,具有较好的并发挖掘性能,提高了动车组故障诊断分析的效率。
【关键词】:大数据 动车组 故障诊断 Hadoop C4.5算法
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 绪论11-17
- 1.1 论文研究背景及意义11-12
- 1.2 研究现状12-14
- 1.2.1 铁路应用大数据研究现状12-13
- 1.2.2 数据挖掘并行化研究现状13-14
- 1.3 论文研究内容与创新点14-15
- 1.4 论文组织结构15-16
- 1.5 本章小结16-17
- 2 数据挖掘基础理论17-32
- 2.1 数据挖掘概述17-21
- 2.1.1 数据挖掘简介17-18
- 2.1.2 国内外研究现状18-21
- 2.1.3 动车组数据研究现状21
- 2.2 Hadoop分布式平台介绍21-26
- 2.2.1 Hadoop概述21-23
- 2.2.2 Hadoop结构模型及角色23-26
- 2.3 适用于动车组故障分类预测的基础算法选择26-30
- 2.3.1 分类算法简介及原始分类算法的选择26-30
- 2.4 本章小结30-32
- 3 动车组数据分析32-38
- 3.1 动车组信息传输技术介绍32-34
- 3.2 动车组数据介绍34-37
- 3.3 本章小结37-38
- 4 基于C4.5的故障预测算法的改进研究38-46
- 4.1 C4.5决策树算法简介38-40
- 4.1.1 C4.5算法原理38-39
- 4.1.2 C4.5算法缺陷39-40
- 4.2 C4.5决策树算法的改进40-42
- 4.2.1 Bagging算法简介40-42
- 4.2.2 融合Bagging的C4.5决策树算法B-CTree的设计42
- 4.3 C4.5决策树算法的并行化改造42-44
- 4.3.1 C4.5决策树算法的并行化分析42-43
- 4.3.2 基于MapReduce的C4.5算法MR-C4.5设计43-44
- 4.4 本章小结44-46
- 5 基于Hadoop的动车组故障预测方案46-51
- 5.1 典型数据挖掘方案46
- 5.2 基于Hadoop的动车组故障预测方案的分析和设计46-50
- 5.2.1 需求分析46-47
- 5.2.2 基本设计思想47-48
- 5.2.3 设计方案48-50
- 5.3 本章小结50-51
- 6 实验及结果分析51-62
- 6.1 实验环境搭建51-55
- 6.1.1 硬件环境51
- 6.1.2 软件环境51-52
- 6.1.3 Hadoop平台的安装与部署52-55
- 6.2 实验环境搭建55-61
- 6.2.1 数据准备55-56
- 6.2.2 数据预处理56-57
- 6.2.3 模型训练57
- 6.2.4 模型评估57-61
- 6.3 本章小结61-62
- 7 总结与展望62-64
- 7.1 论文工作总结62
- 7.2 下一步研究工作62-64
- 参考文献64-67
- 作者简历67-69
- 学位论文数据集69
【相似文献】
中国期刊全文数据库 前10条
1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
6 ;大数据不等于Hadoop[J];办公自动化;2014年06期
7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
9 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
中国重要报纸全文数据库 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
中国硕士学位论文全文数据库 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
本文关键词:基于Hadoop的动车组故障诊断关键技术的研究与实现,,由笔耕文化传播整理发布。
本文编号:320504
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/320504.html