当前位置:主页 > 科技论文 > 软件论文 >

基于关联规则的并行优化算法研究

发布时间:2019-09-07 13:07
【摘要】:在数据挖掘及其相关的应用领域中,基于关联规则的挖掘是一个重要的研究方向。然而当前许多关联规则挖掘的研究方法在处理不同的数据类型的数据集时并没有挖掘出特别理想的挖掘结果,而且也没有充分利用基于共享内存的多核计算机的高效运算能力来解决问题。因此,本文提出了一个新颖的发现频繁项集的并行的关联规则挖掘方法,来解决上述问题。本文提出的方法是基于共享内存的方式并行挖掘频繁项集,该方法集成了两种关联规则的挖掘策略,分别是水平化的挖掘策略和垂直化的挖掘策略。该方法会动态选择两种挖掘策略中的最佳策略而应用到数据集的每个子数据集中,从而高效地适应数据的特征,并且无论数据集是稀疏的还是稠密的,该方法的运行效率相比传统的方法都更有优势。此外,本方法会尽量最小化并行过程中的同步开销,而最大化数据分布的独立性从而增强算法的可行性。本方法自身的结构建立在基于多核的共享内存架构上,并且会采用动态规划引导自身去平衡数据的加载。实验结果表明,本文提出的方法要比传统的并行关联规则的挖掘方法运行速度更快,消耗的内存空间更少。
【图文】:

多核,处理器,架构,集群化


3.1.1多核处理器架构逡逑多核处理器是一种独立的计算机组件,该组件由两个或多个独立的中央处理单元组逡逑成,而这些处理单元的物理结构又是相同的。处理器架构如图3.1所示。起初处理器被逡逑设计为只拥有一个核心,然而不久,在2008年,由Intel和AMD两家公司共同推出了逡逑商业化的多核处理器,,这使得多核处理器的普及称为主流13?M2]。逡逑Thread逦Thread逡逑Chip逡逑Core逦Core逡逑逦I逦i逦逡逑Memory逡逑图3.1多核处理器架构模型逡逑多核处理器的计算机与之前的计算机集群或是SMP邋(对称化的多核处理器)有着不逡逑同的规格:其内存架构不呈现集群化的分布而是呈现出共享式的分布。这一点与SMP逡逑17逡逑

实例数据,策略,数据格式


表3.1实例数据集的Bit邋Vector构造表逡逑TIP逦频繁项集逦a逦b逦c逦d逦e逡逑1逦a,b,d逦1逦1逦0逦1逦_0_逡逑2逦b,c,d逦0逦1逦1逦1逦_0_逡逑3逦a,c,d,e逦1逦0逦1逦1逦1逡逑4逦a,逦d,逦e逦1逦0逦0逦1逦_1_逡逑5逦a,b,c逦1逦1逦1逦0逦_0_逡逑6逦a,b,逦c逦1逦1逦1逦0逦_0_逡逑_1_逦0邋0邋0邋0邋_0_逡逑8逦a,逦b,逦d逦1逦1逦0逦1逦_0_逡逑9逦a,b,邋c,e逦1逦1逦1逦0逦1逡逑ShaFEM算法对于频繁模式的产生使用了两种挖掘策略:其中FP-tree使用了基于水逡逑平的数据格式挖掘策略,而Bit-vector使用了基于垂直的数据格式挖掘策略。在挖掘频逡逑
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【参考文献】

相关期刊论文 前8条

1 冯兴杰,周谆;Apriori算法的改进[J];计算机工程;2005年S1期

2 陈文庆,许棠;关联规则挖掘Apriori算法的改进与实现[J];微机发展;2005年08期

3 孟祥萍,王华金,王贤勇,任纪川,鞠传香;基于改进FP-树的最大模式挖掘算法[J];计算机工程与应用;2005年14期

4 杨君锐,赵群礼;基于FP-Tree的最大频繁项目集更新挖掘算法[J];华中科技大学学报(自然科学版);2004年11期

5 朱红蕾,李明;维护关联规则的算法研究[J];兰州理工大学学报;2004年05期

6 李淑芝,郑剑;一种基于Hash_tree的产生关联规则的方法[J];南昌大学学报(理科版);2004年02期

7 陆楠,王U

本文编号:2533035


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2533035.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38e5d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com