当前位置:主页 > 科技论文 > 软件论文 >

基于Spark分布式的关联挖掘优化研究与综治决策应用

发布时间:2021-05-20 17:02
  伴随着社会信息化的快速发展,大数据的发展态势也同时趋于稳定性的增长。其中,数据规模的庞大和类型的多样化,必然隐含着潜在的知识信息。当今,大数据领域里依然存在着“数据量丰富,知识度匮乏”的问题。尽管近几年的一些学者提出了知识库发现的相关研究,但依然无法满足日益剧增的复杂性需求。因此,如何将庞大的数据资源转化成有价值的信息,如何有效的提升知识发现的效率,如何扩展大数据分析技术的研究领域,成为当今亟须解决的热点性问题。针对这些问题,提出了基于Spark的计算引擎,对关联规则挖掘算法进行结构优化,并将改进策略集成于分布式计算架构,同时能够解决实际性问题。论文的主要研究内容具有如下四个部分:首先深入研究了关联规则的相关理论,针对传统算法的不足,确定优化思路。其中引入唯一Prime理论,通过Prime映射将事务集数据化,提升压缩率。摒弃传统的HeadTable模式,规避了多次排序和频繁模式基递归构建的时间消耗。同时构建一种新规则树:PNFP-Tree,并以GCD(最大公约数)模式深度挖掘出频繁项。针对Tree的规模问题,提出了向量剪枝与矩阵压缩的方式,优化整体挖掘效率。其次,提出了一种基于分布式的... 

【文章来源】:东华理工大学江西省

【文章页数】:80 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 主要研究内容与创新点
    1.4 论文组织结构
第2章 相关理论与技术
    2.1 关联挖掘相关概念
        2.1.1 数据挖掘概述
        2.1.2 关联规则
    2.2 关联规则常用算法
        2.2.1 Apriori算法原理
        2.2.2 FP-Growth算法原理
    2.3 分布式计算架构
        2.3.1 基于Hadoop的分布式平台
        2.3.2 Spark分布式计算引擎
        2.3.3 Spark与 MapReduce的对比分析
    2.4 本章小结
第3章 关联挖掘算法的优化策略
    3.1 频繁模式算法分析与改进思路
    3.2 基于唯一素数理论的算法设计
        3.2.1 素数理论概述
        3.2.2 基于唯一素数的事务数据集转换
    3.3 PNFP-tree的算法构建
        3.3.1 定义PNFP-Tree数据结构
        3.3.2 构建PNFP-Tree
        3.3.3 向量剪枝与矩阵压缩策略
    3.4 GCD模式挖掘与PNFPM算法优化
    3.5 权值均衡分组策略
    3.6 本章小结
第4章 基于Spark的 PNFPM算法优化与构建
    4.1 基于Spark分布式的关联挖掘算法优化策略
    4.2 动态流式数据过滤与TV数据集算法构建
        4.2.1 动态流式数据过滤
        4.2.2 构建TV数据集算法
    4.3 基于Spark的 PNFP-tree构建与剪枝压缩算法
        4.3.1 构造PNFP-tree算法
        4.3.2 向量剪枝与矩阵压缩算法
    4.4 基于Spark的权值分组与GCD模式挖掘的优化
    4.5 实验对比分析
        4.5.1 TV数据集转换的紧密性分析
        4.5.2 PNFPM算法性能分析
    4.6 本章小结
第5章 基于Spark的 PNFPM算法在综治工作中的决策应用
    5.1 网格化综治工作的场景应用需求分析
    5.2 PNFPM关联算法的多准则决策挖掘研究
        5.2.1 关联挖掘分析与多准则决策过程
        5.2.2 结果分析
    5.3 本章小结
第6章 总结与展望
    6.1 全文总结
    6.2 未来展望
致谢
攻读硕士学位期间发表的学术论文
参考文献


【参考文献】:
期刊论文
[1]利用spss软件分析校园霸凌事件的发生规律以及预防[J]. 赵楠,王昕,李英娜,吴晟.  软件. 2018(01)
[2]战术导弹数据挖掘平台设计及其关键技术[J]. 马艳.  计算机测量与控制. 2017(11)
[3]数据挖掘隐私保护算法研究综述[J]. 方跃坚,朱锦钟,周文,李同亮.  信息网络安全. 2017(02)
[4]一种结合散列与位表挖掘频繁项目集算法[J]. 任永功,宋奎勇,寇香霞.  计算机科学. 2010(12)
[5]一种最大压缩误差可控的高光谱图像压缩算法[J]. 宫久路,谌德荣,曹旭平,弓宇.  宇航学报. 2009(06)
[6]基于粗糙集理论的边坡稳定性评价中因素权重确定方法的研究[J]. 王广月,崔海丽,李倩.  岩土力学. 2009(08)

博士论文
[1]人工免疫算法的优化及其关键问题研究[D]. 舒万能.武汉大学 2013

硕士论文
[1]分布式环境下数字地形分析并行化算法研究[D]. 夏灯城.中国地质大学 2018
[2]基于改进的个性化混合推荐算法的研究[D]. 钟良月.浙江工商大学 2018
[3]基于大数据平台的流连接算法及并行化研究[D]. 郎贤波.南京邮电大学 2017
[4]基于知识迁移的跨领域推荐算法研究[D]. 李林峰.北京交通大学 2017
[5]基于Spark平台大数据推荐系统的研究[D]. 孟雅格.西安电子科技大学 2017
[6]MIMO-OFDM电力线通信系统中的次优信号检测算法研究[D]. 张杰.安徽工业大学 2017
[7]开放域事件抽取关键技术研究[D]. 苏晓丹.解放军信息工程大学 2017
[8]Hadoop环境下近似概念格的并行构造算法研究[D]. 谭富林.昆明理工大学 2017
[9]基于FGBDT算法的贷款概率预测系统[D]. 胡红祥.中国科学院大学(中国科学院深圳先进技术研究院) 2017
[10]数据挖掘技术在人力资源需求预测中的应用研究[D]. 吴紫薇.华北电力大学 2017



本文编号:3198114

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3198114.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fd73e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com