Flink平台下Eclat算法的研究及在动车组故障关联关系挖掘中的应用
发布时间:2021-04-05 23:30
随着大数据时代的到来,分布式计算平台越来越受到人们的关注。Apache Flink是一个完全支持流处理、基于内存的分布式计算平台。它把批处理作为流处理的一种极限情况,用流处理的概念来解决批处理,为数据分析提供了一个新的思路和方法。传统的关联规则挖掘算法Apriori、FP-Growth、Eclat都有一定的局限性,选择一个合适的关联规则挖掘算法并对其进行改进是本篇论文的研究重点之一。动车组在日常运维中积累了大量的数据,如何从这些数据中获取知识以指导动车组的运维,提高动车组运行的可靠性,成为一个亟待解决的问题。本篇论文在Flink平台下改进Eclat算法并把改进后的算法应用在动车组故障关联关系挖掘中,主要工作包括:(1)提出了一种基于特定元素比较的判定策略,用于快速判断交集操作能否得到频繁项。通过在Eclat算法中添加该判定条件,跳过不能得到频繁项的交集操作,减少迭代次数,提高算法效率。编写改进前后算法程序,在Flink本地执行环境下分别处理公开数据集做对比实验,验证改进方法的有效性。(2)提出了一种数据预处理方法——字段数字化,用于将动车组数据中复杂的文字转换成简单的正整数,并记录这种...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
IA州od算法的过程
标记为空,扫描过滤后的事务数据,如果某个数据项是第一次遇到,??则创建该节点,并在headTable中添加一个指向该节点的指针,否则按路径找到该??项对应的节点,修改节点信息,得到FP-tree。如图2-2为FP-tree的一个结构样例。??Z:5?^?>?X:1??阿、o?..................s????yl?R:1?)X:3??????S:1??Y:3?、、?/L_J?L__J?..???"?1二「」??——r/、、‘、'??/?、s、?_____??r:3?^?、”:3??I?L_J?/?R:1??;"""I?....??S*3??)?S:2?.?R:1????...I?...?|_v_????..?????????T:3?卜???1?T:2?T:1??图2-2?FP-tree结构样例??Figure?2-2?The?example?of?FP-tree?structure??挖掘频繁项集是由FP-tree树挖掘出频繁项集的过程[32]。首先需要先求得每一??个频繁项的条件模式基,再以条件模式基为数据创建条件FP-tree,若为单一分枝??则列举出所有组合得到频繁模式,若为多分枝则递归操作直至为单一分枝,得到??的项和频繁模式连接得到频繁项集。条件模式基是以查找元素为结尾的路径的集??合。FP-Growth算法在挖掘频繁项集的时候需要递归生成条件FP-tree
北京交通大学硕士专业学位论文?相关理论和技术介绍??2.2?Flink?简介??Apache?Flink是一个面向分布式数据流处理和批处理的开源计算平台,提供了??支持流处理和批处理两种类型的应用功能。该平台完全由java代码实现,目前主??要依靠开源社区的贡献发展。??2.2.1无界流和有界流??Flink平台是一个面向分布式数据流处理和批处理的开源计算平台,用于对无??界和有界数据流进行状态计算。任何类型的数据都不可能是凭空产生的,都是作??为事件流产生的,如银行存取款交易、游戏主播视频直播、传感器接收传递消息??等,这些无论是文字数据还是视频数据都是作为流产生的。数据可以作为有界流??和无界流来被处理。无界流和有界流如图2-3所示。??I?I?[??
【参考文献】:
期刊论文
[1]Spark和Flink的计算模型对比研究[J]. 谭勇. 计算机产品与流通. 2019(04)
[2]Flink的并行Apriori算法设计与实现[J]. 倪政君,夏哲雷. 中国计量大学学报. 2018(02)
[3]基于Hadoop、Spark及Flink大规模数据分析的性能评价[J]. 代明竹,高嵩峰. 中国电子科学研究院学报. 2018(02)
[4]基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J]. 肖文,胡娟,周晓峰. 计算机应用研究. 2018(01)
[5]动车组车载信息综合应用系统研究[J]. 李金波. 铁路计算机应用. 2017(07)
[6]基于Flink平台的应用研究[J]. 蔡鲲鹏. 现代工业经济和信息化. 2017(02)
[7]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[8]几种典型关联规则算法的分析与比较[J]. 胡佳. 现代计算机(专业版). 2011(17)
[9]关联规则挖掘综述[J]. 蔡伟杰,张晓辉,朱建秋,朱扬勇. 计算机工程. 2001(05)
博士论文
[1]基于非规范知识处理的高速列车综合智能故障诊断方法研究[D]. 宋龙龙.北京交通大学 2016
硕士论文
[1]基于概念漂移流数据分类算法研究及其分布式实现[D]. 欧阳碧娜.北京邮电大学 2018
[2]基于数据流的分布式实时推荐算法的研究与实现[D]. 丛义昊.北京邮电大学 2018
[3]高速铁路动车组故障关联关系分析的研究[D]. 郭玉霞.北京交通大学 2018
[4]频繁项集快速挖掘算法研究及应用[D]. 崔馨月.太原理工大学 2017
[5]WTD车载设备在线监测与健康评估技术研究与应用[D]. 刘春.北京交通大学 2017
[6]流式计算模式的性能研究与优化[D]. 王蒙.北京邮电大学 2017
[7]大数据环境下动车组故障关联关系分析关键技术研究与实现[D]. 汲磊举.北京交通大学 2016
[8]数据挖掘中关联规则算法的改进与并行化处理[D]. 董金凤.哈尔滨理工大学 2016
[9]动车组状态维修关键技术研究与实现[D]. 李鹏程.北京交通大学 2015
[10]基于关联规则的动车组相关部件故障诊断分析及应用研究[D]. 赵怀昕.北京交通大学 2012
本文编号:3120304
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
IA州od算法的过程
标记为空,扫描过滤后的事务数据,如果某个数据项是第一次遇到,??则创建该节点,并在headTable中添加一个指向该节点的指针,否则按路径找到该??项对应的节点,修改节点信息,得到FP-tree。如图2-2为FP-tree的一个结构样例。??Z:5?^?>?X:1??阿、o?..................s????yl?R:1?)X:3??????S:1??Y:3?、、?/L_J?L__J?..???"?1二「」??——r/、、‘、'??/?、s、?_____??r:3?^?、”:3??I?L_J?/?R:1??;"""I?....??S*3??)?S:2?.?R:1????...I?...?|_v_????..?????????T:3?卜???1?T:2?T:1??图2-2?FP-tree结构样例??Figure?2-2?The?example?of?FP-tree?structure??挖掘频繁项集是由FP-tree树挖掘出频繁项集的过程[32]。首先需要先求得每一??个频繁项的条件模式基,再以条件模式基为数据创建条件FP-tree,若为单一分枝??则列举出所有组合得到频繁模式,若为多分枝则递归操作直至为单一分枝,得到??的项和频繁模式连接得到频繁项集。条件模式基是以查找元素为结尾的路径的集??合。FP-Growth算法在挖掘频繁项集的时候需要递归生成条件FP-tree
北京交通大学硕士专业学位论文?相关理论和技术介绍??2.2?Flink?简介??Apache?Flink是一个面向分布式数据流处理和批处理的开源计算平台,提供了??支持流处理和批处理两种类型的应用功能。该平台完全由java代码实现,目前主??要依靠开源社区的贡献发展。??2.2.1无界流和有界流??Flink平台是一个面向分布式数据流处理和批处理的开源计算平台,用于对无??界和有界数据流进行状态计算。任何类型的数据都不可能是凭空产生的,都是作??为事件流产生的,如银行存取款交易、游戏主播视频直播、传感器接收传递消息??等,这些无论是文字数据还是视频数据都是作为流产生的。数据可以作为有界流??和无界流来被处理。无界流和有界流如图2-3所示。??I?I?[??
【参考文献】:
期刊论文
[1]Spark和Flink的计算模型对比研究[J]. 谭勇. 计算机产品与流通. 2019(04)
[2]Flink的并行Apriori算法设计与实现[J]. 倪政君,夏哲雷. 中国计量大学学报. 2018(02)
[3]基于Hadoop、Spark及Flink大规模数据分析的性能评价[J]. 代明竹,高嵩峰. 中国电子科学研究院学报. 2018(02)
[4]基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J]. 肖文,胡娟,周晓峰. 计算机应用研究. 2018(01)
[5]动车组车载信息综合应用系统研究[J]. 李金波. 铁路计算机应用. 2017(07)
[6]基于Flink平台的应用研究[J]. 蔡鲲鹏. 现代工业经济和信息化. 2017(02)
[7]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[8]几种典型关联规则算法的分析与比较[J]. 胡佳. 现代计算机(专业版). 2011(17)
[9]关联规则挖掘综述[J]. 蔡伟杰,张晓辉,朱建秋,朱扬勇. 计算机工程. 2001(05)
博士论文
[1]基于非规范知识处理的高速列车综合智能故障诊断方法研究[D]. 宋龙龙.北京交通大学 2016
硕士论文
[1]基于概念漂移流数据分类算法研究及其分布式实现[D]. 欧阳碧娜.北京邮电大学 2018
[2]基于数据流的分布式实时推荐算法的研究与实现[D]. 丛义昊.北京邮电大学 2018
[3]高速铁路动车组故障关联关系分析的研究[D]. 郭玉霞.北京交通大学 2018
[4]频繁项集快速挖掘算法研究及应用[D]. 崔馨月.太原理工大学 2017
[5]WTD车载设备在线监测与健康评估技术研究与应用[D]. 刘春.北京交通大学 2017
[6]流式计算模式的性能研究与优化[D]. 王蒙.北京邮电大学 2017
[7]大数据环境下动车组故障关联关系分析关键技术研究与实现[D]. 汲磊举.北京交通大学 2016
[8]数据挖掘中关联规则算法的改进与并行化处理[D]. 董金凤.哈尔滨理工大学 2016
[9]动车组状态维修关键技术研究与实现[D]. 李鹏程.北京交通大学 2015
[10]基于关联规则的动车组相关部件故障诊断分析及应用研究[D]. 赵怀昕.北京交通大学 2012
本文编号:3120304
本文链接:https://www.wllwen.com/kejilunwen/jiaotonggongchenglunwen/3120304.html