当前位置:主页 > 科技论文 > 软件论文 >

基于滑动窗口的数据流关联规则挖掘算法研究

发布时间:2018-01-21 04:41

  本文关键词: 数据流挖掘 滑动窗口 关联规则 多最小支持度 加权 出处:《天津工业大学》2017年硕士论文 论文类型:学位论文


【摘要】:随着数据库技术在政府、企业以及其它社会组织的生产运营过程中的广泛应用,越来越多种类的数据形式出现在了研究者的视野当中。而其中的流数据由于广泛的出现在商务网络交易、股市、传感器网络等诸多领域,因此引起了研究者的极大研究热情。与传统的数据形式相比,数据流具有数据量大、实时性强、顺序、数据多样的特点,正是由于这些特点决定了数据流不适合于将全部的数据存储在数据库中,因此传统的数据挖掘算法并不适宜数据流的挖掘。并且以往的数据挖掘算法都是默认各数据项具有相同的重要性且各项目均匀分布,然而在实际的应用中,各项目的重要性是不尽相同并且是非均匀分布的。基于此,本文引入了多最小支持度和加权的思想。为了研究的便利性,研究者通常会将连续的数据流进行分段,即为时间段,我们通常情况下会将这种时间段称为数据窗口。在实际的研究过程当中,根据不同的分段方式,时间窗口又被我们分为滑动窗口模型、衰减窗口模型和界标窗口模型,本文采用的是应用较为普遍的滑动窗口模型。关联规则挖掘的目的是为了找到所有的强关联规则,即:超过最小支持度和最小置信度的所有规则。根据数据挖掘在实际应用中的情况,我们一般将关联规则挖掘分为两步:第一步,找出目标数据集中所有的频繁模式;第二步,用这些频繁项集产生符合条件的关联规则。其中第二步是整个关联规则挖掘过程的关键。在现实应用中,若支持度设置的过小,则会引发组合爆炸,导致挖掘过程无法进行;如果支持度的值设置的过大,则得不到稀有项目的关联规则。多最小支持度加权的方法就是针对这两种现实的情况所提出的一种解决思想。本文研究了基于滑动窗口的多最小支持度加权的数据流关联规则挖掘算法SWM-MMSW,以及在top-k频繁项集挖掘的基础上引入加权的思想,对该算法进行改进,产生W-TKFM算法。这两个算法主要采用事务矩阵和二项集矩阵来分别存储事务数据和频繁2-项集。经推导和实验验证,SWM-MMSW算法和W-TKFM算法能够有效的挖掘出频繁项集并且均具有很好的时空效率。
[Abstract]:With the wide application of database technology in the production and operation of government, enterprises and other social organizations. More and more kinds of data forms appear in the field of view of researchers, and the flow data is widely used in many fields, such as business network trading, stock market, sensor network and so on. Compared with the traditional data form, the data flow has the characteristics of large amount of data, strong real-time, order and variety of data. Because of these characteristics, the data flow is not suitable to store all the data in the database. Therefore, the traditional data mining algorithm is not suitable for data stream mining, and the previous data mining algorithms are the default data items with the same importance and uniform distribution, but in practical applications. The importance of each item is different and non-uniform distribution. Based on this, this paper introduces the idea of multi-minimum support and weighted. In order to study the convenience. Researchers usually segment continuous data streams, that is, time periods, which we usually call data windows. In the actual research process, according to different segmentation methods. Time window is divided into sliding window model, attenuation window model and boundary sign window model. The purpose of mining association rules is to find all strong association rules. According to the actual application of data mining, we generally divide the mining of association rules into two steps: the first step. Identify all frequent patterns in the target dataset; The second step is to use these frequent itemsets to generate eligible association rules. The second step is the key of the whole association rules mining process. In practical applications, if the support degree is too small, it will cause a combination explosion. The mining process can not be carried out; If the value of support is set too large. The method of multi-minimum support weighting is a solution to these two real situations. This paper studies the number of multi-minimum support weighted based on sliding window. According to stream association rules mining algorithm SWM-MMSW. Based on the mining of top-k frequent itemsets, the idea of weighting is introduced to improve the algorithm. W-TKFM algorithm is generated. The two algorithms mainly use transaction matrix and binomial set matrix to store transaction data and frequent 2-item set respectively. SWM-MMSW algorithm and W-TKFM algorithm can effectively mine frequent itemsets and have good space-time efficiency.
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 钟颖莉;复合滑动窗口连接算法[J];哈尔滨商业大学学报(自然科学版);2004年03期

2 李峰;肖建华;;时间序列相似性分析中滑动窗口宽度的确定[J];计算机科学与探索;2009年01期

3 闫巧梅;;滑动窗口技术在电信中的应用设计模型[J];电脑开发与应用;2012年07期

4 王伟平,李建中,张冬冬,郭龙江;数据流上周期更新滑动窗口的连接算法[J];哈尔滨工业大学学报;2005年06期

5 裴丽鹊;;一种基于滑动窗口的时间序列异常检测算法[J];巢湖学院学报;2011年03期

6 谭宏强;牛强;;基于滑动窗口及局部特征的时间序列符号化方法[J];计算机应用研究;2013年03期

7 陈川,林亚平;滑动窗口协议分析及其在微机上的模拟实现[J];计算机应用;2000年02期

8 李建中,张冬冬;滑动窗口规模的动态调整算法[J];软件学报;2004年12期

9 伍红茹,黄欣阳,刘双根,蔺大正;最佳滑动窗口编码法及其在快速模幂乘中的应用[J];南昌大学学报(工科版);2005年02期

10 刘陶刚;赵荣彩;姚远;瞿进;;分块存储的滑动窗口数据重用技术[J];计算机应用;2010年05期

相关会议论文 前10条

1 苏东;宋宝燕;杨兴华;欧征宇;于亚新;于戈;;基于滑动窗口语义的聚集计算方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 汪罕;赵加奎;陈立军;;流和滑动窗口模型下的直径计算(英文)[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

3 贺冉冉;马玲;;基于滑动窗口的非参数趋势检验在气候序列趋势和波动分析中的应用[A];促进科技经济结合,,服务创新驱动发展——蚌埠市科协2012年度学术年会论文集[C];2012年

4 杨宜东;孙志挥;周晓云;;滑动窗口中的变化检测[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 王成江;冉兵;戴迪;吴磊;;基于滑动窗口的动态手写签名局部相关性研究[A];湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下)[C];2006年

6 王伟平;李建中;张冬冬;郭龙江;;数据流上基于时间滑动窗口的连接算法研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

7 王栩;李建中;王伟平;;基于滑动窗口的数据流压缩技术及连续查询处理方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

8 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 王秋棠;王鹏;周皓峰;汪卫;;基于滑动窗口的概率数据流上的聚集查询[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

10 沈伟;邹建峰;;基于滑动窗口的语音混合算法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

相关硕士学位论文 前10条

1 钟阳;基于数据统计分析的变桨系统故障预警方法[D];华北电力大学;2015年

2 熊腾飞;基于滑动窗口的多元时间序列数据动态关联规则挖掘[D];哈尔滨工业大学;2016年

3 柴子峰;基于滑动窗口的弱标记物体检测方法研究[D];哈尔滨工业大学;2016年

4 贾可;基于滑动窗口的指纹中心点定位算法研究[D];西安邮电大学;2016年

5 朱保琨;基于滑动窗口车牌检测的FPGA架构设计与实现[D];长春理工大学;2016年

6 陈鹏;基于滑动窗口法的比较加密技术及其应用研究[D];西安电子科技大学;2015年

7 李鹏飞;基于滑动窗口的数据流关联规则挖掘算法研究[D];天津工业大学;2017年

8 闫冰;仿真平台中基于滑动窗口的流数据处理策略研究[D];哈尔滨工程大学;2011年

9 王秋棠;基于滑动窗口的概率数据流上的聚集查询[D];复旦大学;2009年

10 贺春亮;基于数据流滑动窗口的降载技术研究[D];燕山大学;2009年



本文编号:1450500

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1450500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66898***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com