有概念漂移的数据流的半监督分类算法研究
发布时间:2021-01-17 03:30
当前,在许多应用场景中,数据往往以数据流的形式出现,由此带来了一个新的研究方向——数据流机器学习。与传统的机器学习相比,数据流机器学习由于数据流自身的特点(实时、快速、大量、易变)给传统的机器学习任务,特别是分类任务,带来了新的挑战。目前,数据流相关研究主要集中在监督环境下的数据流分类以及无监督环境下的数据流聚类,相较而言,半监督环境下的数据流分类研究工作非常少,至今还没有专门的综述文章。然而,在实际中,获取样本的标记既耗时又费力,数据流中数据量大以及实时、快速的特点导致几乎不可能完全地且及时地对样本进行正确标注。例如,在信用卡在线欺诈检测场景[10]中,当发生新的交易时,使用当前的分类器模型预测该交易的类型是正常还是欺诈。当客户收到银行账单后,会识别该交易类型的预测是否准确并向银行反馈,从而银行可以获得该交易的真实类型。然而,并非所有用户都会提供反馈,并且此过程具有时间上的延迟,所以,分类模型通常在半监督环境中被更新。因此,半监督环境下的有概念漂移数据流分类研究显得更加符合实际、更加有意义。半监督环境下的概念漂移数据流分类研究主要面临两个挑战:1)如何在半监督环...
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:93 页
【学位级别】:硕士
【部分图文】:
(a)中数据集的聚类结果
图 4-7 两个不同的分布样本比例为 20%,然后运行实验:首先在第一个分块上训练一个分类器1f 并放入分类器池中,其中自动确定聚簇数量模块估计的聚簇数量为 5;当第二个分块到来后,利用 对第二个分块中的样本逐个分类,分类准确率为 98%;当第三个分块到来后,先在第二个分块上训练一个分类器2f ,其中估计的聚簇数量为 4,然后利用第二个分块数据对 的拷贝进行适应并记适应后的分类器为11f ,然后将 与 进行加权组合(权重动态确定)并对第三个分块中样本进行分类,累积分类准确率为 88.88%。接着,由于分类器池没满,将 放入分类器池中;当第四个分块到来后,先在第三个分块上训练一个分类器3f ,其中估计的聚簇数量为 6,然后利用第三个分块数据分别对 和的拷贝进行适应,并记适应后的分类器分别为31f 和32f ,然后将 、 与 进行动态加权并对第三个分块中的样本逐个进行分类,累积分类准确率为 92.34%。接着,由于分类器池没满,将 放入分类器池中。§4.4.3.2 准确率(a)(b)
储行为分析跟踪所提算法 OLFLSSL 的存储模型在不同阶段的存储状 数据集为例,通过 PCA 降维技术可视化存储模型在不同以清楚地看到,MITFace 数据集共包含 2 个概念,这两个现,即图 5-9 a/c/e 中的实例属于同一个概念,图 5-9 b/d 图 5-10 是所提出的算法 OLFLSSL 在不同阶段存储状态的/c/e 中的存储状态是相同的,图 5-10 b/d 中的存储状态是的存储器模型对概念漂移具有良好的适应性,即能够随着知识,并且对每个概念具有良好的学习能力。图 5-10 中的相同颜色表示相同的类别,图 5-10 a/c/e 中由。通过比较图 5-9 和图 5-10,我们可以看到两个类别的相已经出现一定程度的偏移。原因在于用于绘制图 5-10 的时间戳的所有数据,并且经过了指数衰减;(2)到目前为止
【参考文献】:
期刊论文
[1]一种基于局部分类精度的多源在线迁移学习算法[J]. 唐诗淇,文益民,秦一休. 软件学报. 2017(11)
[2]一种基于Tri-training的数据流集成分类算法[J]. 胡学钢,马利伟,李培培. 数据采集与处理. 2017(05)
[3]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[4]一种基于混合模型的数据流概念漂移检测算法[J]. 郭躬德,李南,陈黎飞. 计算机研究与发展. 2014(04)
[5]概念漂移数据流分类研究综述[J]. 文益民,强保华,范志刚. 智能系统学报. 2013(02)
[6]基于半监督学习的数据流集成分类算法[J]. 徐文华,覃征,常扬. 模式识别与人工智能. 2012(02)
[7]Clustering feature decision trees for semi-supervised classification from high-speed data streams[J]. Wen-hua XU 1,Zheng QIN 2,Yang CHANG 2 (1 Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) (2 School of Software,Tsinghua University,Beijing 100084,China). Journal of Zhejiang University-Science C(Computers & Electronics). 2011(08)
博士论文
[1]数据流中概念漂移检测与分类方法研究[D]. 李培培.合肥工业大学 2012
硕士论文
[1]新对称相对熵与DNA序列相似性分析[D]. 沈娟.西北农林科技大学 2010
本文编号:2982112
【文章来源】:桂林电子科技大学广西壮族自治区
【文章页数】:93 页
【学位级别】:硕士
【部分图文】:
(a)中数据集的聚类结果
图 4-7 两个不同的分布样本比例为 20%,然后运行实验:首先在第一个分块上训练一个分类器1f 并放入分类器池中,其中自动确定聚簇数量模块估计的聚簇数量为 5;当第二个分块到来后,利用 对第二个分块中的样本逐个分类,分类准确率为 98%;当第三个分块到来后,先在第二个分块上训练一个分类器2f ,其中估计的聚簇数量为 4,然后利用第二个分块数据对 的拷贝进行适应并记适应后的分类器为11f ,然后将 与 进行加权组合(权重动态确定)并对第三个分块中样本进行分类,累积分类准确率为 88.88%。接着,由于分类器池没满,将 放入分类器池中;当第四个分块到来后,先在第三个分块上训练一个分类器3f ,其中估计的聚簇数量为 6,然后利用第三个分块数据分别对 和的拷贝进行适应,并记适应后的分类器分别为31f 和32f ,然后将 、 与 进行动态加权并对第三个分块中的样本逐个进行分类,累积分类准确率为 92.34%。接着,由于分类器池没满,将 放入分类器池中。§4.4.3.2 准确率(a)(b)
储行为分析跟踪所提算法 OLFLSSL 的存储模型在不同阶段的存储状 数据集为例,通过 PCA 降维技术可视化存储模型在不同以清楚地看到,MITFace 数据集共包含 2 个概念,这两个现,即图 5-9 a/c/e 中的实例属于同一个概念,图 5-9 b/d 图 5-10 是所提出的算法 OLFLSSL 在不同阶段存储状态的/c/e 中的存储状态是相同的,图 5-10 b/d 中的存储状态是的存储器模型对概念漂移具有良好的适应性,即能够随着知识,并且对每个概念具有良好的学习能力。图 5-10 中的相同颜色表示相同的类别,图 5-10 a/c/e 中由。通过比较图 5-9 和图 5-10,我们可以看到两个类别的相已经出现一定程度的偏移。原因在于用于绘制图 5-10 的时间戳的所有数据,并且经过了指数衰减;(2)到目前为止
【参考文献】:
期刊论文
[1]一种基于局部分类精度的多源在线迁移学习算法[J]. 唐诗淇,文益民,秦一休. 软件学报. 2017(11)
[2]一种基于Tri-training的数据流集成分类算法[J]. 胡学钢,马利伟,李培培. 数据采集与处理. 2017(05)
[3]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[4]一种基于混合模型的数据流概念漂移检测算法[J]. 郭躬德,李南,陈黎飞. 计算机研究与发展. 2014(04)
[5]概念漂移数据流分类研究综述[J]. 文益民,强保华,范志刚. 智能系统学报. 2013(02)
[6]基于半监督学习的数据流集成分类算法[J]. 徐文华,覃征,常扬. 模式识别与人工智能. 2012(02)
[7]Clustering feature decision trees for semi-supervised classification from high-speed data streams[J]. Wen-hua XU 1,Zheng QIN 2,Yang CHANG 2 (1 Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China) (2 School of Software,Tsinghua University,Beijing 100084,China). Journal of Zhejiang University-Science C(Computers & Electronics). 2011(08)
博士论文
[1]数据流中概念漂移检测与分类方法研究[D]. 李培培.合肥工业大学 2012
硕士论文
[1]新对称相对熵与DNA序列相似性分析[D]. 沈娟.西北农林科技大学 2010
本文编号:2982112
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2982112.html