针对含有概念漂移问题的增量学习算法研究

发布时间:2018-01-04 05:35

  本文关键词:针对含有概念漂移问题的增量学习算法研究 出处:《中国科学技术大学》2017年博士论文 论文类型:学位论文


  更多相关文章: 增量学习 概念漂移 集成学习 在线学习 数据流挖掘 监督学习


【摘要】:随着大数据时代的到来,大规模数据处理和学习成为了学术界研究的焦点,也为工业界设计更优质的应用和服务带来可能。增量学习通过增量式地学习新数据、更新已有模型的方法实现大规模数据的处理,也受到了研究领域的广泛关注。然而,概念漂移,即数据联合概率分布发生变化的现象,往往会严重影响增量学习的性能,给增量学习在真实学习任务中的应用带来了巨大的挑战。为了处理增量学习中的概念漂移问题,本文提出了两个针对概念漂移问题的增量学习算法,并设计一个并行化学习框架。主要工作包括:首先,为了使用增量学习中的历史知识辅助概念漂移的处理,本文提出了一种基于差异性模型选择和知识迁移的概念漂移处理方法(DTEL)。本工作假设在概念漂移的情况下,历史数据中的知识和当前知识间存在相关性。因此,可以通过知识迁移的方式,一方面提取出历史数据训练所得模型(即历史模型)中的有用知识,另一方面去除其中和当前数据分布不一致的知识。通过这种方式利用历史知识辅助增量学习对概念漂移的处理。此外,由于存储空间的限制,仅有限数量的历史模型可以被算法所保存。对此,本工作提出一个基于差异性的模型选择方法。通过维护差异性较大的一组历史模型,为接下来的学习步提供尽可能多的知识,以更大的可能性为知识迁移提供较好的起始解。为了验证本算法的有效性,本工作使用了多组人造数据和真实数据进行实验,其中人造数据涵盖了五种不同的概念漂移类型、真实数据涉及了四个不同的应用领域。实验结果表明基于差异性模型选择和知识迁移的方法能够有效提升增量学习对于概念漂移的处理能力,且本算法在不同类型的概念漂移上均有较好的表现。其次,为了处理类演化类型概念漂移,本文提出了一种基于类的集成学习方法。类演化是一个特殊类型的概念漂移问题,指在学习过程中类出现或消失的现象。不同于已有工作中突变式类演化的情况,为了处理真实应用中的类演化问题,本工作将类演化建模为一种逐渐变化的过程,并提出了一个基于类的集成学习算法(CBCE)。通过新建基模型和抑制基模型的使用来达到处理类演化类型概念漂移的目的。考虑到渐变式类演化导致的动态类不平衡问题,本工作提出一个动态数据下采样的方法,并应用在各个基模型中。类演化类型概念漂移主要包括三种不同的基本元素,即类出现、类消失、以及消失类再次出现。本工作选用了人造数据和真实数据来表示各种的类演化场景,用以对基于类的集成学习算法进行综合的验证。实验使用两个真实数据集对类演化问题进行模拟,使用社交网络数据作为真实数据进行测试。实验结果表明本算法能够有效的对类演化类型概念漂移进行处理,且能有效处理渐变类演化带来的数据中动态类不平衡问题。最后,为了将增量学习算法在大规模数据中进行应用,本文设计并实现了一个针对概念漂移问题的并行化增量集成学习实现方法,用于提高增量学习中集成学习模型的学习和使用效率。在工业界真实应用中,大数据的学习中不仅要求算法具有较高的准确率,而且应该满足高效执行的要求,以适应数据的快速增长。可并行性是设计并行系统的基础。在增量学习中,集成学习模型具有很明显的可并行性。为了提升算法执行的时间效率,本工作对概念漂移处理中的集成算法进行分析归纳,总结出一个并行执行实现方法,以辅助集成学习模型的并行化实现。此外,本工作对DTEL和CBCE算法在此集成学习并行实现方法中进行实现并测试。测试结果表面并行实现后的DTEL算法和CBCE算法增量学习中具有较高的加速比,验证了此并行实现方法的有效性。
[Abstract]:This paper presents two incremental learning algorithms based on differential model selection and knowledge transfer . In order to deal with the concept drift problem in incremental learning , this paper proposes two incremental learning algorithms based on differential model selection and knowledge transfer . In the study of large data , not only the algorithm is required to have higher accuracy , but also to meet the requirements of high - efficiency execution to adapt to the rapid growth of data . In incremental learning , the integrated learning model has obvious parallelism . In order to improve the time - efficiency of the algorithm , this work implements and tests the integration algorithm in the concept drift processing . In addition , this work implements and tests the DTEL and CBCE algorithms in this integrated learning parallel implementation method .

【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 杨静;张健沛;刘大昕;;基于多支持向量机分类器的增量学习算法研究[J];哈尔滨工程大学学报;2006年01期

2 秦玉平;王秀坤;王春立;;实现兼类样本类增量学习的一种算法[J];控制与决策;2009年01期

3 秦玉平;王秀坤;王春立;;实现兼类样本增量学习的一种算法[J];计算机应用与软件;2009年08期

4 秦玉平;陈一荻;王春立;王秀坤;;一种新的类增量学习方法[J];计算机工程与应用;2011年34期

5 时建中;程龙生;;基于增量学习系统的财务危机动态预警[J];技术经济;2012年05期

6 王洪波;赵光宙;齐冬莲;卢达;;一类支持向量机的快速增量学习方法[J];浙江大学学报(工学版);2012年07期

7 秦玉平;伦淑娴;王秀坤;;一种新的兼类样本类增量学习算法[J];计算机科学;2012年09期

8 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期

9 刘梅,权太范,姚天宾;基于增量学习神经模糊网络的机动目标跟踪[J];电子学报;2005年11期

10 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期

相关会议论文 前8条

1 秦亮;唐静;史贤俊;肖支才;;一种改进的支持向量机增量学习算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

2 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 张庆彬;吴惕华;刘波;;一种改进的基于群体的增量学习算法[A];第二十六届中国控制会议论文集[C];2007年

4 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 王悦凯;吴晓峰;翁巨扬;;Where-What网络增量学习特性探究[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年

6 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年

7 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

8 宫义山;钱娜;;贝叶斯网络结构在线学习算法及应用[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年

相关博士学位论文 前4条

1 孙宇;针对含有概念漂移问题的增量学习算法研究[D];中国科学技术大学;2017年

2 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年

3 段华;支持向量机的增量学习算法研究[D];上海交通大学;2008年

4 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 郝运河;基于增量学习的复杂环境下道路识别算法研究[D];南京理工大学;2015年

2 李丹;基于马氏超椭球学习机的增量学习算法研究[D];渤海大学;2015年

3 赵翠翠;基于RBF神经网络的集成增量学习方法研究[D];河北工业大学;2015年

4 王会波;基于支持向量机的混合增量学习算法与应用[D];华中师范大学;2016年

5 张健;增量学习在电子鼻智能烘烤系统中的应用研究[D];重庆大学;2016年

6 曾舒如;基于多模态增量学习模型的目标物体检测方法研究[D];南昌大学;2016年

7 潘振春;基于实例的领域适应增量学习方法研究[D];南京理工大学;2017年

8 刘国欣;基于增量学习SVM分类算法的研究与应用[D];中北大学;2017年

9 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年

10 张智敏;基于增量学习的分类算法研究[D];华南理工大学;2010年



本文编号:1377302

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1377302.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81377***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com