基于集成的单标签和多标签数据流分类算法研究
发布时间:2020-02-13 08:22
【摘要】:与传统的静态数据相比,现代数据多以数据流的形式产生和积累,数据类型方面也越来越常见到多标签类型。数据形式与类型的变化无论对单标签数据流分类还是多标签数据流分类都提出了巨大的挑战。本文针对单标签数据流分类算法,在前人工作的基础上提出了两种改进算法;另一方面,针对多标签数据流分类算法,本文受以往研究成果的启发,提出了两种新颖的分类算法。具体工作如下:(1)为解决单标签数据流分类算法大多无法解决特征演化且分类效果欠佳的问题,本文改进静态数据环境下的无监督特征选择算法,降低其时间复杂度来适应数据流环境,并以DXMinei.算法为原型,应用改进后的无监督特征选择算法优化其特征选择部分,提出了一种基于集成学习与无监督特征选择思想的数据流分类算法。(2)由于工作(1)中所提算法的时间复杂度仍有优化空间,本文采用一种在高维度数据环境下表现优异的数据结构进一步改进算法的特征选择部分,提出了一种改进的基于集成学习与快速无监督特征选择的数据流分类算法。(3)为解决多标签数据流分类综合了多标签数据分类与数据流分类两方面的难点,本文受多标签静态数据分类算法的启发,提出了一种动态加权集成的多标签数据流分类算法。该算法使用ML-KNN模型与KNN思想训练基分类器,并设计一种新颖的动态变化的权重调节机制,动态集成各个子分类器来最终给出分类结果,分类后数据被用来训练新的子分类器并替换原模型中表现不好的分类器。(4)工作(3)中所提算法中集成模型的大小对分类效果影响极大,而该参数需要人工确定,另外该算法在更新过程中舍弃了部分有用的信息。为解决模型大小确定困难与丢失信息不利于分类的问题,本文提出了一种集成大小不固定的多标签数据流分类模型。新模型维护一个分类器池,每次分类时从池中动态的选取若干子分类器加权集成,处理过的数据又被训练成新的模型并加入分类器池中。本文的主要贡献在于:第一,工作(1)、(2)均解决了单标签数据流分类算法大多未考虑的特征演化问题并且时间复杂度足够低来适用于数据流环境;第二,在目前多标签数据流分类研究工作还较少的情况下,工作(3)、(4)为其他研究人员提出了两种可用的解决思路,丰富了这方面的研究;第三,在真实数据集上,分别对上述四种算法进行了实验,结果表明各算法在分类效果与时间消耗上均有良好表现。
【图文】:
现实生活中许多应用都在源源不断地产生数据流,这些数据以连续、无限、逡逑快速、随时间变化等特征产生和积累。以下列举几个典型的数据流应用和在这种逡逑特殊数据上进行分析的例子,如图1-1所示。逡逑上:函1邋BHIMI邋^7厂二^邋pSfeSii";丨逡逑网页查询流逦网络监控逦传感网络逦社交网络逡逑图1_1数据流应用场景逡逑Figure邋1-1邋The邋application邋of邋data邋stream逡逑(1)
。逡逑第三章,首先对本章研宄内容涉及的相关概念进行定义说明,然后对本章提逡逑出的算法的基础工作DXMiner与MCFS进行简要介绍。然后针对DXMiner算法逡逑的缺点提出一种改进策略并形成了邋UFSCS-I,并在此基础上继续减少时间复杂度逡逑形成了邋UFSCS-II算法。最后通过实验,,从多个角度对UFSCS-I、UFSCS-II算法与逡逑多个数据流分类算法进行性能对比,验证改进效果。逡逑第四章,首先对本章提出的算法的基础工作ML-KNN进行了简要的介绍。然逡逑后详细介绍了针对多标签数据流分类任务提出的一种基于ML-KNN的、通过动态逡逑调整权重进行多分类器集成的SWMEC算法。最后通过在真实数据集上进行实验逡逑对SWMEC的性能进行对比验证。逡逑第五章,针对SWMEC算法的缺陷,详细介绍了采用集成模型大小不固定的逡逑策略进行改进后得到的SWMUEC算法。最后在真实数据集上与SWMEC等算法逡逑进行对比实验。逡逑第六章,总结本文的工作。对文中提出的两种针对数据流的分类算法及在此逡逑基础上的两种改进算法作出总结与分析,并对未来的研宄内容与研宄方向提出展逡逑望。逡逑 ̄ ̄
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
本文编号:2579074
【图文】:
现实生活中许多应用都在源源不断地产生数据流,这些数据以连续、无限、逡逑快速、随时间变化等特征产生和积累。以下列举几个典型的数据流应用和在这种逡逑特殊数据上进行分析的例子,如图1-1所示。逡逑上:函1邋BHIMI邋^7厂二^邋pSfeSii";丨逡逑网页查询流逦网络监控逦传感网络逦社交网络逡逑图1_1数据流应用场景逡逑Figure邋1-1邋The邋application邋of邋data邋stream逡逑(1)
。逡逑第三章,首先对本章研宄内容涉及的相关概念进行定义说明,然后对本章提逡逑出的算法的基础工作DXMiner与MCFS进行简要介绍。然后针对DXMiner算法逡逑的缺点提出一种改进策略并形成了邋UFSCS-I,并在此基础上继续减少时间复杂度逡逑形成了邋UFSCS-II算法。最后通过实验,,从多个角度对UFSCS-I、UFSCS-II算法与逡逑多个数据流分类算法进行性能对比,验证改进效果。逡逑第四章,首先对本章提出的算法的基础工作ML-KNN进行了简要的介绍。然逡逑后详细介绍了针对多标签数据流分类任务提出的一种基于ML-KNN的、通过动态逡逑调整权重进行多分类器集成的SWMEC算法。最后通过在真实数据集上进行实验逡逑对SWMEC的性能进行对比验证。逡逑第五章,针对SWMEC算法的缺陷,详细介绍了采用集成模型大小不固定的逡逑策略进行改进后得到的SWMUEC算法。最后在真实数据集上与SWMEC等算法逡逑进行对比实验。逡逑第六章,总结本文的工作。对文中提出的两种针对数据流的分类算法及在此逡逑基础上的两种改进算法作出总结与分析,并对未来的研宄内容与研宄方向提出展逡逑望。逡逑 ̄ ̄
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【参考文献】
相关期刊论文 前2条
1 王霄;周李威;陈耿;朱玉全;;一种基于标签相关性的多标签分类算法[J];计算机应用研究;2014年09期
2 郭躬德;李南;陈黎飞;;一种基于混合模型的数据流概念漂移检测算法[J];计算机研究与发展;2014年04期
相关硕士学位论文 前2条
1 石中伟;多标签数据流分类中的类别增量学习与概念漂移检测的研究[D];桂林电子科技大学;2015年
2 屈伟;多标签数据流分类研究[D];西北农林科技大学;2010年
本文编号:2579074
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2579074.html