当前位置:主页 > 科技论文 > 搜索引擎论文 >

高频繁度低效用模式挖掘算法及其在云计算下的实现研究

发布时间:2020-05-19 21:02
【摘要】:模式挖掘是数据挖掘技术中的一个重要的研究方向。对于传统的频繁模式挖掘和高效用模式挖掘,它们只能分别用来挖掘频繁模式和高效用模式。在许多实际应用场景下,这些传统的单纯的频繁模式挖掘和效用模式挖掘模型的范畴会比较狭窄,不能满足实际应用中的多样化分析需求,人们往往对频繁度和效用值都感兴趣,不单单只是频繁度或者效用值。为了解决这个问题,本文提出同时考虑支持度和效用值,进而挖掘更有价值的模式,其中一种就是高频繁度低效用模式,并提出了一个新颖的算法 HFLUP(High Frequency and Low Utility Patterns Mining Algorithm)。挖掘高频繁度低效用模式的最简单直接的方法就是分为两阶段来挖掘,首先利用频繁模式挖掘算法来挖掘出所有的高频繁度模式,然后再从这些高频繁度模式中找出效用值低于用户指定的最大效用阈值的模式,即最终得到高频繁度低效用模式。但是这种两阶段的挖掘方式会产生大量的候选集,且需多次遍历数据库,磁盘I/0开销大,挖掘效率低。因此,为了避免这些问题,本文提出的高频繁度低效用模式挖掘算法HFLUP是一个不产生候选集的单阶段算法,并且只需要遍历数据库两次。本文还提出了一个新的数据结构,叫做FUL,用来存储模式的效用信息以及裁剪搜索空间的信息,通过FULs,算法可以高效地直接挖掘出高频繁度低效用模式且无需产生候选模式。为了减小搜索空间,提高挖掘效率,提出了有效的且规模可控的效用下界裁剪策略以及通过lookahead策略预先确定高频繁度低效用模式而无需递归枚举。大量实验表明:所提出的两个裁剪策略是有效且高效的,HFLUP算法在运行时间和内存消耗上大大优于两阶段的高频繁度低效用模式挖掘方法。本文的第二项工作是将所提出的算法并行化,以适应海量大数据处理的要求,以克服单机的物理内存局限所造成单机挖掘的低效率。本文采用云计算模式下的基于内存的分布式计算框架Spark来实现算法的并行化,提出了基于Spark的并行高频繁度低效用模式挖掘算法PHFLUPS(Parallel High Frequency and Low Utility Patterns Mining Algorithm Based on Spark),以便利用大规模分布式集群来并行挖掘大数据。对比实验表明,PHFLUPS算法比基于MapReduce的并行高频繁度低效用模式挖掘算法效率更高,并且在大规模数据集上并行化算法要比单机HFLUP算法效率高。本文的思路和所提出的相关技术同样适用于挖掘其他类型的模式,比如低频繁度高效用模式。
【图文】:

分区所,节点,流水线,策略


一个父RDD的分区被多个子RDD分区所使用。比方,filter操作是窄依赖,逡逑reduceByKey操作是宽依赖,而当父RDD不是基于Hash策略分区的时候,join操作逡逑也是宽依赖。图4-2表示一些常见的窄依赖和宽依赖。图中的每个圆角矩形表示一个逡逑RDD,内部每个实体矩形表示RDD的一个分区。逡逑逦fr=fi逡逑j逡逑ma邋p,filter逦grou邋pBy邋Key/redu邋ceBy邋Key逡逑—-a逡逑—逦—Emuir逡逑、逦^邋union逦j0in逡逑窄依赖逡逑图4-2常见的窄依赖和宽依赖逡逑窄依赖和宽依赖的的区别主要有两个方面。首先,窄依赖可以在集群中的一个节逡逑点上以流水线的方式执行多个转换操作,这个节点可以单独地计算出RDD的一个分逡逑区,无需依赖其它的节点。比如,依次执行map和union操作,这两个操作都是窄依逡逑18逡逑

数据集中,阈值,数据集,运行时间


(a)邋Pumsb逦(b)邋Connect逡逑图7-2邋HFLUPBase、HFLUPBaseAndLBu在不同数据集中的运行时间对比逡逑图7-1表示HFLUPBase、HFLUP—lbu在不同数据集中构造FUL的次数,图逡逑7-2表示HFLUPBase、HFLUPBaseAndLBU在不同数据集中的运行时间。逡逑在图7-1和图7-2中,对于Pumsb数据集设置的最大效用阈值为0.955%,对于逡逑Connect数据集设置的最大效用阈值为1.843%。从图7-1邋(a)的Pumsb数据集中,可逡逑以发现当最小支持度阈值OT>m/p;7邋=邋75%时,HFLUPBaseAndLBU构造FUL的次数为逡逑115068
【学位授予单位】:浙江工商大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 赖娟;金澎;洪艳伟;;一种改进的压缩频繁模式挖掘算法[J];西南师范大学学报(自然科学版);2013年07期

2 刘君强,潘云鹤;一种基于树的频繁模式挖掘算法[J];系统工程理论与实践;2003年05期

3 李清勇 ,秦亮曦 ,施智平 ,史忠植;最大目标频繁模式挖掘算法研究[J];计算机工程与应用;2004年33期

4 申展,江宝林,唐磊,胡运发;基于互关联后继树的频繁模式挖掘研究[J];计算机工程;2004年21期

5 战立强;刘大昕;;小波滤波在时间序列频繁模式挖掘中的应用[J];哈尔滨工程大学学报;2008年01期

6 何海涛;张世玲;;基于矩阵的频繁模式挖掘及更新算法[J];计算机科学;2008年03期

7 高琳;覃桂敏;周晓峰;;图数据中频繁模式挖掘算法研究综述[J];电子学报;2008年08期

8 孟凡荣;宋春景;张磊;;一种新的多层频繁模式挖掘算法[J];微计算机信息;2009年03期

9 孟彩霞;;频繁模式挖掘的约束算法[J];智能系统学报;2009年02期

10 潘立福;朱利晶;敖富江;杜静;;基于树搜索方式的频繁模式挖掘综述[J];计算机与信息技术;2009年05期

相关会议论文 前10条

1 侯俊杰;李春平;;一种基于内存索引的频繁模式挖掘算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

2 任家东;孙亚非;郭盛;;基于约束的交互式频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

3 袁晴晴;楼宇波;周皓峰;汪卫;施伯乐;;基于图论的频繁模式挖掘[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

4 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

6 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

7 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

8 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

9 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

10 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 屈盈飞;基于统计推理的复杂网络广义社团检测算法研究[D];重庆大学;2017年

2 宋天恒;强化学习问题中的正则化最小二乘策略评价算法的研究[D];北京化工大学;2016年

3 张丽娜;萤火虫算法研究及其在船舶运动参数辨识中的应用[D];哈尔滨工程大学;2017年

4 申国伟;面向社会网络的关系挖掘算法研究[D];哈尔滨工程大学;2015年

5 赵嫔姣;混合信号的波达方向估计算法研究[D];哈尔滨工程大学;2017年

6 潘果;混合智能算法及其在优化问题中的应用[D];湖南大学;2017年

7 崔建华;基于消息传递算法的无线传感器网络定位算法研究[D];解放军信息工程大学;2017年

8 夏颖;WLAN室内半监督定位及指纹更新算法研究[D];哈尔滨工业大学;2016年

9 于文杰;基于人工蜂群算法的无线传感器网络部署问题研究[D];电子科技大学;2018年

10 黄小童;基于改进蚁群算法的降质图像盲评价方法[D];武汉科技大学;2017年

相关硕士学位论文 前10条

1 常仲民;高频繁度低效用模式挖掘算法及其在云计算下的实现研究[D];浙江工商大学;2018年

2 施方林;人工蜂群算法的改进及在空间聚类中的应用[D];解放军信息工程大学;2017年

3 董琦t,

本文编号:2671480


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2671480.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户804f6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com