基于时间戳和垂直格式的关联规则算法研究
发布时间:2021-02-24 08:35
随着计算机技术的发展和互联网的普及,在生活、社会生产、科学研究上,数据的作用越来越重要。从海量数据中获取有效信息可以帮助我们做出正确的决定,数据挖掘的任务便是挖掘数据中的有效信息。本文研究的是数据挖掘中热门的关联规则算法,其目的是挖掘数据之间隐藏的联系。本文改进的算法是一种用来挖掘后上市商品的关联规则的算法(SLMCM),这个后上市商品可以引申为后加入数据库的项,是数据库中项的更新。这种算法由于考虑到了数据更新,更适应实际应用。SLMCM算法的关键是加入了时间戳,所以在这也称为基于时间戳的关联规则算法。SLMCM算法运行效率极低,非常不适合现在的大数据背景。针对此问题,本论文提出了以下改进:(1)提出改进算法E-SLMCM算法,采用垂直结构,仅需一次遍历数据库。由于在将数据库转化为垂直格式时,可以根据项首次出现的时间直接记录时间戳,不再需要按原来的算法将每条事务的各项按时间戳进行排序,节省了时间。另外提出了新的求项集时间戳的方法,在求项集的时间戳时不用遍历整个数据库。另外,算法采用了集合枚举树升序方法,在原来基础上效率又提高一倍之多。(2)为提高在密集数据库上的运行效率,在E-SLMC...
【文章来源】:青岛理工大学山东省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
E-SLMCM求一项集时间戳和一项集事务集过程
青岛理工大学工学硕士学位论文读取txt文件,如图3.6为稀疏数据集retail在txt文件中的保存方式的截图,每行为一条事务,事务中的数字为事务中包含项的标号。项之间用空格间隔,事务之间用换行符间隔。如图3.6中,第一行代表的事务中包含30、31、32三个项。图3.7为保存在txt文件中的密集数据集pumsb数据集的截图(由于截图大小所限,截图未能显示完整的每条事务,pusmb每条事务的实际长度要远大于截图所显示的事务长度),可见密集型数据集每条事务包含的项数较大。图3.6稀疏数据集retail的保存格式图3.7密集数据集pusmb的保存格式本文所列举实验一共涉及5个数据集,分别是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的数据来自于真实的零售商客户交易记录;mushroom来自于UCI的蘑菇数据,pusmb是人口和住房普查数据,chess来自于UCI的国际象棋数据。表格3.5是这五个数据集的一些关键的特征。表3.5数据集特征数据集事务数项数事务平均长度类型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4实验与分析表7是对稀疏型数据集retail在最小支持度阈值为0.006时的挖掘结果,表8是对密集型数据集mushroom在最小支持度阈值为0.25时的挖掘结果。两个表分别列出了四种算法不同项数的项集的数量。从中得出,带时间戳的算法比不带时间戳的算法挖掘出的各项频繁项集数都要高出很多。如表3.6中不带时间戳的频繁项30
pusmb上运行时间的比较
【参考文献】:
期刊论文
[1]基于Spark的并行频繁项集挖掘算法[J]. 张素琪,孙云飞,武君艳,顾军华. 计算机应用与软件. 2019(02)
[2]Spark平台下关联规则算法的优化实现[J]. 梁瑷云,袁丁,严清,刘小久. 计算机工程与设计. 2018(12)
[3]基于Spark的并行FP-Growth算法优化及实现[J]. 顾军华,武君艳,许馨匀,谢志坚,张素琪. 计算机应用. 2018(11)
[4]基于负载均衡的并行FP-Growth算法[J]. 高权,万晓冬. 计算机工程. 2019(03)
[5]基于位存储Tid的CPU并行化Eclat算法[J]. 孙宗鑫,张桂芸. 计算机工程. 2018(12)
[6]一种基于Spark框架的并行FP-Growth挖掘算法[J]. 张稳,罗可. 计算机工程与科学. 2017(08)
[7]基于MapReduce的Apriori算法并行化改进[J]. 秦军,郝天曙,董倩倩. 计算机技术与发展. 2017(04)
[8]基于MapReduce架构的并行矩阵Apriori算法[J]. 谢志明,王鹏. 计算机应用研究. 2017(02)
[9]一种基于多叉树的并行Apriori算法[J]. 郭方方,梁晓,王慧强,钱真,陈江涛. 小型微型计算机系统. 2015(06)
[10]一种引入索引结构的Apriori并行化改进算法[J]. 臧伟,曹宝香. 电子技术. 2014(06)
本文编号:3049106
【文章来源】:青岛理工大学山东省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
E-SLMCM求一项集时间戳和一项集事务集过程
青岛理工大学工学硕士学位论文读取txt文件,如图3.6为稀疏数据集retail在txt文件中的保存方式的截图,每行为一条事务,事务中的数字为事务中包含项的标号。项之间用空格间隔,事务之间用换行符间隔。如图3.6中,第一行代表的事务中包含30、31、32三个项。图3.7为保存在txt文件中的密集数据集pumsb数据集的截图(由于截图大小所限,截图未能显示完整的每条事务,pusmb每条事务的实际长度要远大于截图所显示的事务长度),可见密集型数据集每条事务包含的项数较大。图3.6稀疏数据集retail的保存格式图3.7密集数据集pusmb的保存格式本文所列举实验一共涉及5个数据集,分别是:retail、foodmart、mushroom、pusmb、chess。其中retail和foodmart的数据来自于真实的零售商客户交易记录;mushroom来自于UCI的蘑菇数据,pusmb是人口和住房普查数据,chess来自于UCI的国际象棋数据。表格3.5是这五个数据集的一些关键的特征。表3.5数据集特征数据集事务数项数事务平均长度类型foodmart414115595稀疏retail881621640710稀疏mushroom812412023密集chess31967637密集pusmb49046211374密集3.5.4实验与分析表7是对稀疏型数据集retail在最小支持度阈值为0.006时的挖掘结果,表8是对密集型数据集mushroom在最小支持度阈值为0.25时的挖掘结果。两个表分别列出了四种算法不同项数的项集的数量。从中得出,带时间戳的算法比不带时间戳的算法挖掘出的各项频繁项集数都要高出很多。如表3.6中不带时间戳的频繁项30
pusmb上运行时间的比较
【参考文献】:
期刊论文
[1]基于Spark的并行频繁项集挖掘算法[J]. 张素琪,孙云飞,武君艳,顾军华. 计算机应用与软件. 2019(02)
[2]Spark平台下关联规则算法的优化实现[J]. 梁瑷云,袁丁,严清,刘小久. 计算机工程与设计. 2018(12)
[3]基于Spark的并行FP-Growth算法优化及实现[J]. 顾军华,武君艳,许馨匀,谢志坚,张素琪. 计算机应用. 2018(11)
[4]基于负载均衡的并行FP-Growth算法[J]. 高权,万晓冬. 计算机工程. 2019(03)
[5]基于位存储Tid的CPU并行化Eclat算法[J]. 孙宗鑫,张桂芸. 计算机工程. 2018(12)
[6]一种基于Spark框架的并行FP-Growth挖掘算法[J]. 张稳,罗可. 计算机工程与科学. 2017(08)
[7]基于MapReduce的Apriori算法并行化改进[J]. 秦军,郝天曙,董倩倩. 计算机技术与发展. 2017(04)
[8]基于MapReduce架构的并行矩阵Apriori算法[J]. 谢志明,王鹏. 计算机应用研究. 2017(02)
[9]一种基于多叉树的并行Apriori算法[J]. 郭方方,梁晓,王慧强,钱真,陈江涛. 小型微型计算机系统. 2015(06)
[10]一种引入索引结构的Apriori并行化改进算法[J]. 臧伟,曹宝香. 电子技术. 2014(06)
本文编号:3049106
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3049106.html