不均匀网格数据流聚类及其追溯系统中应用
发布时间:2021-05-10 10:08
随着产品追溯系统的应用推广,追溯数据量急剧增加,追溯数据作为一种典型的数据流具有重要的研究意义和应用价值。数据流挖掘已经成为当前数据挖掘领域研究热点之一,在有限的内存中对数据流快速处理以获得高质量聚类成为数据流挖掘的一个重要方向。基于密度网格的数据流聚类方法计算速度快、可形成任意形状簇,但存在参数难以设置、聚类精度低等不足。针对这些缺点,本文改进基于密度网格数据流聚类算法,并设计实现并行化算法,最后将其应用到追溯系统中。所做工作总结如下:(1)基于D-Stream算法提出结合质心的不均匀网格数据流聚类算法NCDStream。算法首先通过加权平均密度设置自适应参数,并根据网格簇数量动态调整阈值。其次对网格簇边缘的稀疏网格采用不均匀划分,提高聚类精度。然后使用并查集优化网格簇合并,提高聚类效率。最后采用金字塔模型存储时间快照为网格簇演化分析提供依据。实验表明,相比于其他算法,NCD-Stream算法聚类效果更好,执行效率更高。(2)基于NCD-Stream提出面向分布式环境的数据流聚类算法DNCD-Stream。算法将数据空间分成多个网格块并行地进行局部聚类,并判断网格块的边界网格状态进行...
【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究目的与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织架构
第2章 相关理论与技术
2.1 数据流的特征
2.2 数据流相关技术
2.3 聚类与数据流聚类概述
2.4 Spark大数据处理框架概述
2.4.1 弹性分布式数据集
2.4.2 Spark Streaming
2.5 本章小结
第3章 结合质心的不均匀网格数据流聚类算法
3.1 D-Stream算法介绍
3.1.1 基本定义
3.1.2 时间周期gap的确定
3.1.3 松散网格的检测和删除
3.1.4 D-Stream算法不足之处
3.2 NCD-Stream算法设计
3.2.1 网格密度阈值的动态设定
3.2.2 基于并查集的效率优化
3.2.3 簇边缘判定方法
3.2.4 NCD-Stream算法描述
3.3 实验分析
3.3.1 聚类效果评价指标
3.3.2 算法参数设置
3.3.3 聚类质量评价
3.3.4 执行效率对比
3.4 本章小结
第4章 分布式数据流聚类算法
4.1 DNCD-Stream算法设计
4.1.1 相关定义
4.1.2 并行化方法
4.2 DNCD-Stream算法描述
4.2.1 冷启动
4.2.2 局部聚类方法
4.2.3 全局聚类方法
4.3 基于Spark Streaming的算法实现
4.4 实验分析
4.4.1 聚类质量评价
4.4.2 执行效率对比
4.5 本章小结
第5章 追溯数据流处理系统设计与实现
5.1 系统设计
5.2 系统实现
5.2.1 数据接收模块
5.2.2 数据预处理模块
5.2.3 数据传输模块
5.2.4 流计算模块
5.3 本章小结
第6章 总结与展望
6.1 论文总结
6.2 未来工作展望
参考文献
附录A 攻读硕士学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于网格耦合的数据流聚类[J]. 张东月,周丽华,吴湘云,赵丽红. 软件学报. 2019(03)
[2]分布式数据流聚类算法及其基于Storm的实现[J]. 万新贵,李玲娟,马可. 计算机技术与发展. 2017(07)
[3]基于网格密度影响因子的多密度聚类算法[J]. 杨善红,梁金明,李静雯. 计算机应用研究. 2015(03)
[4]基于双层网格和密度的数据流聚类算法[J]. 王治和,杨晏. 计算机工程. 2014(04)
[5]中国农产品质量安全追溯体系建设现状与发展对策[J]. 杨玲. 世界农业. 2012(08)
[6]串行算法并行化处理的数学模型与算法描述[J]. 吴越. 计算机技术与发展. 2012(05)
[7]基于密度网格的数据流聚类算法[J]. 米源,杨燕,李天瑞. 计算机科学. 2011(12)
[8]聚类有效性评价综述[J]. 杨燕,靳蕃,KAMEL Mohamed. 计算机应用研究. 2008(06)
[9]流数据挖掘综述[J]. 孙玉芬,卢炎生. 计算机科学. 2007(01)
[10]家畜和畜产品可追溯系统研究进展[J]. 王立方,陆昌华,谢菊芳,胡肄农. 农业工程学报. 2005(07)
博士论文
[1]食品安全可追溯系统研究[D]. 郑火国.中国农业科学院 2012
硕士论文
[1]基于密度网格的数据流聚类算法研究[D]. 米源.西南交通大学 2011
[2]基于网格与密度的数据流聚类算法研究[D]. 丁金凤.哈尔滨工程大学 2010
本文编号:3179181
【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究目的与意义
1.2 国内外研究现状
1.3 本文研究内容
1.4 本文组织架构
第2章 相关理论与技术
2.1 数据流的特征
2.2 数据流相关技术
2.3 聚类与数据流聚类概述
2.4 Spark大数据处理框架概述
2.4.1 弹性分布式数据集
2.4.2 Spark Streaming
2.5 本章小结
第3章 结合质心的不均匀网格数据流聚类算法
3.1 D-Stream算法介绍
3.1.1 基本定义
3.1.2 时间周期gap的确定
3.1.3 松散网格的检测和删除
3.1.4 D-Stream算法不足之处
3.2 NCD-Stream算法设计
3.2.1 网格密度阈值的动态设定
3.2.2 基于并查集的效率优化
3.2.3 簇边缘判定方法
3.2.4 NCD-Stream算法描述
3.3 实验分析
3.3.1 聚类效果评价指标
3.3.2 算法参数设置
3.3.3 聚类质量评价
3.3.4 执行效率对比
3.4 本章小结
第4章 分布式数据流聚类算法
4.1 DNCD-Stream算法设计
4.1.1 相关定义
4.1.2 并行化方法
4.2 DNCD-Stream算法描述
4.2.1 冷启动
4.2.2 局部聚类方法
4.2.3 全局聚类方法
4.3 基于Spark Streaming的算法实现
4.4 实验分析
4.4.1 聚类质量评价
4.4.2 执行效率对比
4.5 本章小结
第5章 追溯数据流处理系统设计与实现
5.1 系统设计
5.2 系统实现
5.2.1 数据接收模块
5.2.2 数据预处理模块
5.2.3 数据传输模块
5.2.4 流计算模块
5.3 本章小结
第6章 总结与展望
6.1 论文总结
6.2 未来工作展望
参考文献
附录A 攻读硕士学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于网格耦合的数据流聚类[J]. 张东月,周丽华,吴湘云,赵丽红. 软件学报. 2019(03)
[2]分布式数据流聚类算法及其基于Storm的实现[J]. 万新贵,李玲娟,马可. 计算机技术与发展. 2017(07)
[3]基于网格密度影响因子的多密度聚类算法[J]. 杨善红,梁金明,李静雯. 计算机应用研究. 2015(03)
[4]基于双层网格和密度的数据流聚类算法[J]. 王治和,杨晏. 计算机工程. 2014(04)
[5]中国农产品质量安全追溯体系建设现状与发展对策[J]. 杨玲. 世界农业. 2012(08)
[6]串行算法并行化处理的数学模型与算法描述[J]. 吴越. 计算机技术与发展. 2012(05)
[7]基于密度网格的数据流聚类算法[J]. 米源,杨燕,李天瑞. 计算机科学. 2011(12)
[8]聚类有效性评价综述[J]. 杨燕,靳蕃,KAMEL Mohamed. 计算机应用研究. 2008(06)
[9]流数据挖掘综述[J]. 孙玉芬,卢炎生. 计算机科学. 2007(01)
[10]家畜和畜产品可追溯系统研究进展[J]. 王立方,陆昌华,谢菊芳,胡肄农. 农业工程学报. 2005(07)
博士论文
[1]食品安全可追溯系统研究[D]. 郑火国.中国农业科学院 2012
硕士论文
[1]基于密度网格的数据流聚类算法研究[D]. 米源.西南交通大学 2011
[2]基于网格与密度的数据流聚类算法研究[D]. 丁金凤.哈尔滨工程大学 2010
本文编号:3179181
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3179181.html