基于Hadoop的海量工程数据关联规划挖掘方法研究
1绪论
由于高速动车组是高新技术集成体,其维修方式与现有机车车辆有很大差异,容易出现故障信息处理、信息更新不够及时等差错。动车组状态信息的实时采集、传感器的大量使用,使得实时监控和掌握动车组运行状态、进行有目的保养成为可能,越来越多的动车组数据信息被收集起来,对这些数据信息的处理工作也提出了迫切需求。快速、准确地完成动车组关键部件运行状态的分析利用,是确保动车组运行安全和提高管理水平的重要技术保障。虽然铁路信息化水平在不断提高,但是历史故障信息的分析应用仍相对落后。动车组历史运维数据是评价动车组性能和工作状态的重要参考依据。
.....
2基于MapReduce的改进并行频繁模式挖掘算法
2.1关联规则挖掘基本理论
上述两个定义中,支持度就是指两个事件同时发生的概率,而信度则是指在一个事件发生时,另一个事件发生的功率。这是关联规则提取的基础。FP-Growfli算法的核心思想是利用树结构将数据集压缩到FP-Tree中,该算法的主要优点是:完全保留了数据库中事务之间的关系,并且大大降低了数据集扫描次数。仅仅依靠支持度和置信度产生的规则往往包含大量的无效规则及用户不感兴趣的规则,又因为关联规则挖掘所得的结果最终要由用户来使用,使用的效果是检验规则好坏的标准,因此,关联规则挖掘还需要由用户提供规则的约束条件,这样产生的结果才能保证有效并且符合实际生产需求。
2.2经典关联规则挖掘算法分析
两种算法在频繁模式挖掘过程中都可比较有效地产生关联规则,由于FP-Growth算法在数据库扫描方面只进行两次,并且将所有事务数据均压缩到一颗频繁模式树中,相对于Apriori算法而言,在算法执行效率上有明显优势,研究表明,该算法的效率比Apriori算法大约快一个数量级。具体到每个算法而言,Apriori算法主要存在两个问题,首先,该算法建立在大量候选项集的基础上,当面对海量数据时,该算法会产生大量候选项集,并且这些候选项集中很多都是无效的,因此会造成计算资源浪费。例如,则Apriori算法需要产生多达107个候选2-项集;再者,每产生一次频率项集均需扫描一次事务数据库,对于海量数据而言,无疑会大大降低关联规则挖掘的效率,由于FP-Grow化算法采用压缩树的结构存储数据信息,整个关联规则挖掘过程中进行2次数据库扫描,因此可大大降低算法所消耗的时间;其次,FP-Growth算法在挖掘过程中不产生候选顶集,因此,可大大提髙算法执行效率。由于FP-Grow化算法将整个数据集压缩到一棵树中,星然事务数据库中事务信息得到了完全的保留,但是当数据量不断增大时,树的结构变得异常复杂,无疑会造成频率模式挖掘效率低下,甚至会造成计算化内存溢出的情况。3基于MapRedu说的多维关联规则挖掘算法........39
3.1关联规则的分类........393.2传统的并行Apriori算法分析........40
3.3改进的并行Apriori算法........42
4改进的并行关联规则挖掘算法应用........47
4.1数据来源........47
4.2故障数据预处理........47
4.3应用实例分析........49
5动车组运维数据处理平台实现........50
5.1系统实验环境搭建与部署........63
5.2动车组运维数据处理平台的设计........64
5.3性能测试与结果分析........69
5动车组运维数据处理平台实现
5.1系统实验环境搭建与部署
该模块实现的功能包括:第一,能够允许用户将本地文件系统中的文件上传到HDFS分布式文件系统中进行存储,可吏用户摆脱本地磁盘容量的局限性,为用户提供可扩容的云存储服务;第二,用户上传的动车组海量运维数据直接作为分布式数据挖掘的数据源,避免了在数据挖掘时需要进行数据传输而带来的网络开销:第兰,提供数据下载功能,用户可随时将在HDFS中的数据备份进行,下载査看;第四,提供结果查询服务,用户可通过开发工具客户端在线査看数据挖掘结果,或者通过数据下载功能,将数据挖掘结果下载到本地用户,,进地査看、编辑。(3)数据挖掘模块该模块实现用户对动车组运维数据关联规则挖掘的功能,主要包括两种挖掘方式:单机模式与并行模式。单机模式适用于小规模数据集的频率模式挖掘,并行模式适用于海量数据的分布式并行频繁模式挖掘。单机模式运行于用户本地计算机中,数据挖掘结果保存在本地文件夹中,并行模式运行于Hadoop集群,数据挖掘结果运行于云端HDFS分布式文件系统中。该模块为本文的重点研究内容。
5.2动车组运维数据处理平台的设计
数据挖掘综合利用了多种分析方法和分析工具,目的是为了从海量无规则的、杂乱无章的数据中建立数据模型并获取数据内部隐含存在的某种关系。基于动车组历史运维数据的数据挖掘涉及数据存储、数据挖掘、数据同步等多个方面,本节主要针对上述多个方面的需求,设计开发了动车组运维数据处理平台。本平台采用客户端/服务器结构,只要安装软件客户端,并凭借正确的用户名和密码,就可使用本系统的数据管理的相关功能。.....
6总结与展望
本文在Hadoop技术的HDFS分布式存储系统及MapReduce并行编程框架基础之上,提出了针对动车组历史运维数据关联规则挖掘的数据挖掘算法。动车纪海量历史运维数据为研究对象,搜索历史运维数据中列车故障信息与列车状态之间的关联关系,重点研究了关联规则挖掘的基本方法,并对两种传统的关联规则挖掘算法——FP-Growth算法和Apriori算法进行了改进,使其更适用于动车组故障数据的挖掘。本论文的主要工作包括几点:(1)对Hadoop应用研究现状、关联规则挖掘算法研究现状及分类和动车组故障诊断研究现状进行了分析,指出了当前研究工作存在的问题和弱点,提出了本文的研究工作内容。(2)详细分析了经典FP-Grow出算法的流程和步骤。在此基础之上,提出了一种基于MapReduce的改进的并行FP-Growth算法,以原有FP-Growth算法为基础,在算法的各主要步骤上均实现了分布式并行计算,大大提高了算法效率,并对算法FP-Tree搜索策略和频率模式生成规则进行了优化。
.......
参考文献(略)
本文编号:106399
本文链接:https://www.wllwen.com/wenshubaike/lwfw/106399.html