当前位置:主页 > 经济论文 > 电子商务论文 >

面向概念漂移数据流的分类算法研究

发布时间:2018-12-11 17:00
【摘要】:在信息通信技术如此发达的今天,气象监控、网络安全、电子商务等众多应用领域都产生了庞大的数据流,这些数据流中蕴含着大量有价值的信息,而传统的静态数据挖掘技术已无法适应高速、连续、无限、多变的数据流,研究适合、高效的数据流挖掘技术已成为数据挖掘领域的热点。分类是数据挖掘的一个重要分支,与之对应的数据流分类挖掘,更是亟待深入分析并具有现实意义的研究方向。数据流动态多变的特性使得其中隐含的目标或规律可能会随着时间或环境的改变而变化,即发生概念漂移。另一方面,在无线传感器网络、信用卡欺诈检测、网络监控等大量现实应用数据流中的数据项,由于设备精度、重复抽样、数据过时、隐私等原因,通常具有不同程度的不确定性,并不是已知并精确的。本文主要针对数据流分类中的概念漂移和数据不确定性这两个问题展开研究。针对数据流中概念会重复出现、历史概念和当前概念存在着一定的联系以及概念间的相互转换关系等特点,提出了ECA-RC算法。该算法运用集成分类的思想处理数据流中的概念漂移,但在学习过程中不会将暂时失效的概念及对应基分类器删除,而是把它们的基本信息存储起来,方便以后调用。考虑到永久存储全部历史信息占用的内存量较大,采用周期性删除出现频率较低的历史分类信息。另外,可根据概念间的转换关系预测即将到来的概念,在提高分类精度的同时又提高了时间效率。使用传统数据流分类算法处理数据流中存在的不确定数据项时,得到的结果往往不尽如人意。为有效利用数据流中的不确定信息,提出了一种针对不确定数据流的集成分类算法ECA-UCD,该算法将不确定数据用区间及其概率分布函数表示,仍用集成分类思想来解决分类问题,在合理处理数据流中不确定性的同时,还能有效解决数据流中隐含的概念漂移问题。最后通过实验结果验证所提算法具有较好的鲁棒性和较高的分类准确率。
[Abstract]:With the development of information and communication technology, meteorological monitoring, network security, electronic commerce and many other application fields have produced huge data flow, which contains a lot of valuable information. However, the traditional static data mining technology can not adapt to the high-speed, continuous, infinite and changeable data flow. The research on the suitable and efficient data stream mining technology has become a hot spot in the field of data mining. Classification is an important branch of data mining, and the corresponding data stream classification mining is an urgent need for in-depth analysis and practical significance of the research direction. Because of the dynamic characteristics of data flow, the implicit object or law may change with the change of time or environment, that is, the concept drift occurs. On the other hand, in wireless sensor networks, credit card fraud detection, network monitoring, and other practical applications, data items in the data flow, due to equipment accuracy, repeated sampling, outdated data, privacy, and so on, Often with varying degrees of uncertainty, it is not known and accurate. This paper focuses on the conceptual drift and data uncertainty in data stream classification. In view of the reappearance of concepts in data flow, the relationship between historical concepts and current concepts, and the relationship between concepts, a ECA-RC algorithm is proposed. The algorithm uses the idea of integrated classification to deal with the concept drift in the data stream, but does not delete the temporarily invalid concept and the corresponding base classifier in the learning process, but stores their basic information for later call. In view of the large amount of memory consumed by the permanent storage of all historical information, the history classification information with low frequency of periodic deletion is adopted. In addition, the coming concepts can be predicted according to the transformation relationship between concepts, which not only improves the classification accuracy but also improves the time efficiency. When the traditional data stream classification algorithm is used to deal with the uncertain data items in the data flow, the results are often unsatisfactory. In order to effectively utilize the uncertain information in the data stream, an ensemble classification algorithm (ECA-UCD,) for uncertain data flow is proposed. The algorithm uses the interval and its probability distribution function to represent the uncertain data. The idea of integrated classification is still used to solve the classification problem, which can deal with the uncertainty in the data flow reasonably and effectively solve the problem of the concept drift in the data stream at the same time. Finally, the experimental results show that the proposed algorithm has better robustness and higher classification accuracy.
【学位授予单位】:天津工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 侯太平,顾大权,王柏春,朱红伟;远程天气会商系统中的数据流处理[J];计算机工程;2003年03期

2 陈昕,宋瀚涛;基于数据流的近似查询计算及其应用研究[J];计算机应用研究;2003年11期

3 陈昕,陈维兴,苏锦祥;基于数据流模式的聚集快速查询计算研究[J];计算机集成制造系统;2004年06期

4 张冬冬,李建中,王伟平,郭龙江;分布式复式数据流的处理[J];计算机研究与发展;2004年10期

5 王金栋;周良;张磊;丁秋林;;一类数据流连续查询的降载策略研究[J];武汉大学学报(工学版);2005年06期

6 刘景春;;数据流分类关键技术研究[J];佳木斯大学学报(自然科学版);2007年01期

7 李琳;孙士兵;;数据流聚类方法发展研究[J];长沙民政职业技术学院学报;2008年04期

8 陈军;周明天;杨晓燕;;数据流系统降载研究综述[J];计算机应用研究;2008年10期

9 傅鹂;鲁先志;蔡斌;;一种基于数据流驱动的数据流连续查询模型[J];重庆工学院学报(自然科学版);2008年10期

10 David P.Misunas ,张启瑞;数据流处理机的性能分析[J];计算机工程与应用;1980年12期

相关会议论文 前10条

1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

4 孟军;张航黎;张建英;郭禾;;分布式数据流的渐增式聚集维护算法[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年

5 韩近强;杨冬青;唐世渭;;数据流处理中一种自适应的直方图维护算法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

6 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

7 王亦兵;杨树强;王晓伟;;一个面向数据流的多维分析系统的研究与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

8 于亚新;王国仁;陈灿;苏林;朱歆华;赵相国;;基于操作符优先级的两种分布式数据流负载分配算法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

9 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

10 田李;王乐;贾焰;邹鹏;李爱平;;分布式数据流上低通信开销的连续极值查询方法研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

相关博士学位论文 前10条

1 张丽;数据流上序敏感查询处理关键技术研究[D];国防科学技术大学;2013年

2 王超;时间序列数据流复杂模式挖掘研究[D];合肥工业大学;2015年

3 李飒;数据流软聚类理论及其在瓦斯灾害预警中的应用[D];辽宁工程技术大学;2014年

4 陈华辉;基于遗忘特性的数据流概要结构及其应用研究[D];复旦大学;2008年

5 孔英会;数据流技术及其在电力信息处理中的应用研究[D];华北电力大学(河北);2009年

6 崇志宏;基于屏蔽/汇总技术的数据流处理算法[D];复旦大学;2006年

7 姚远;海量动态数据流分类方法研究[D];大连理工大学;2013年

8 曹振丽;面向养殖环境监测的数据流处理方法研究[D];中国农业大学;2015年

9 朱辉生;基于情节规则匹配的数据流预测研究[D];复旦大学;2011年

10 袁志坚;数据流突发检测若干关键技术研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 王川;面向位置服务的物联网数据质量保证方法研究[D];南京理工大学;2015年

2 祝然威;基于时间窗口的数据流频繁项挖掘算法[D];复旦大学;2014年

3 邱孝兵;基于GPU的数据流聚类及相关性分析[D];大连理工大学;2015年

4 张野;数据流查询语言中语法分析器的设计[D];电子科技大学;2015年

5 闫新院;基于概要模型的数据流聚合技术研究[D];西安电子科技大学;2014年

6 王涛;基于Ntrip协议的实时数据流软件的设计与实现[D];西安电子科技大学;2014年

7 陈彬;数据流实时存储关键技术[D];浙江工业大学;2015年

8 王高洋;基于网格和加速粒子群优化的数据流聚类算法研究[D];哈尔滨师范大学;2015年

9 钱海振;大数据流滞后相关性挖掘方法[D];辽宁师范大学;2015年

10 刘祥佳;制造物联海量数据流模式挖掘算法研究[D];广东工业大学;2016年



本文编号:2372904

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2372904.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ded6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com