基于McDiarmid不等式的决策树分类方法研究与应用
发布时间:2021-01-09 03:53
随着信息技术和大数据的不断发展,数据流模型被广泛应用于社会生产和生活的各个领域。因此,数据流的收集和分析就变得至关重要。数据流的爆炸性增长,使得研究者需要更大的内存来存储这些数据流。然而,使用传统的数据挖掘技术很难处理数据流,并且不可能从大量数据流中提取有价值的信息。如今,研究者使用增量决策树方法来处理数据流分类问题,这是挖掘大量数据流中有用信息的方法之一。本文首先对数据流决策树分类方法的相关知识进行概述,包括数据流的定义、概念、特征等。其次介绍了现有的决策树分类方法,主要包括单分类决策树方法和集成分类决策树方法。然后研究基于McDiarmid不等式的数据流决策树分类算法。最后设计实现基于决策树分类方法的城市用户行为分析验证平台。本文的主要贡献如下:(1)首先介绍数据流的概念、特点和处理方式等基本知识。其次,对现阶段用于处理数据流的分类方法,包括决策树、支持向量机、贝叶斯、神经网络、KNN和关联/分类规则进行分析比较。接下来分析数据流决策树分类方法,包括单分类决策树方法和集成分类决策树方法。其中,单分类决策树方法包括快速决策树、快速决策树的衍生算法和其它类型的决策树算法。集成分类决策树...
【文章来源】:北方民族大学宁夏回族自治区
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
数据流分类方法
族大学2020届硕士学位论文 第二章 数据流决决策树分类算法节将数据流决策树分类按照分类模型分为两类,单分类决策树模型和集成分类决图 2-1 所示。其中,单分类模型技术可以维护和增量更新单个(单一)分类模型,地应对概念漂移。相对于单个模型,集成模型需要比单分类更简单的技术更新模型有效地处理概念漂移[50]。更新模型以反映最近的实例并适应内存。具有最低分类精弃用于概念漂移。基于集成的模型比单一的基于增量的方法具有更好的分类精度[5
图 2-2 集成分类方法过程图在数据流决策树集成分类算法中,其中一部分集成决策树算法是基于 Hoeffding 不等式设计的,另外一部分集成算法是基于随机决策树衍生而来的。因此,本节将通过以下两个方面对数据流集成分类决策树算法进行论述。(1)基于 Hoeffding 不等式的集成分类方法Pfahringer 等人在 VFDT 的基础上,提出的霍夫丁选项树(HOT)[69]是一个常规的 Hoeffding树,除了内部决策节点和叶子节点外,还包含额外的选项节点。并且允许应用多个测试,从而将多个 Hoeffding 树作为单独的路径。这个结构使得一个例子可以通过多个不同路径到达多个不同的树节点。目前对数据流分类的研究主要集中在特定的数据流上,通常假设数据流的值是精确和确定的。然而,由于测量不精准、重复采样和网络误差等原因,具有不确定性的数据流在实际应用中是频繁出现的。在 CVFDT 和 DTU 的基础上,提出了不确定处理概念自适应快速决策树(UCVFDT)算法,该算法既保持了 CVFDT 对概念漂移的高速处理能力,又增加了对不确定性数据流的处理能力。实验研究表明 UCVFDT 算法能够有效地对具有不确定数值属性的动态数据
【参考文献】:
期刊论文
[1]基于McDiarmid不等式的决策树分类算法[J]. 贾涛,韩萌,王少峰,邢成. 山西大学学报(自然科学版). 2019(04)
[2]概念漂移数据流集成分类算法综述[J]. 杜诗语,韩萌,申明尧,张春砚,孙蕊. 计算机工程. 2020(01)
[3]SDN中基于机器学习的网络流量分类方法研究[J]. 李兆斌,韩禹,魏占祯,刘泽一. 计算机应用与软件. 2019(05)
[4]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[5]数据流频繁模式挖掘综述[J]. 韩萌,丁剑. 计算机应用. 2019(03)
[6]新型含噪数据流集成分类的算法[J]. 袁泉,郭江帆. 计算机应用. 2018(06)
[7]面向流数据的决策树分类算法并行化[J]. 季一木,张永潘,郎贤波,张殿超,王汝传. 计算机研究与发展. 2017(09)
[8]基于混合式聚类算法的离群点挖掘在异常检测中的应用研究[J]. 尹娜,张琳. 计算机科学. 2017(05)
[9]一种基于决策树的隐私保护数据流分类算法[J]. 陈煜,李玲娟. 计算机技术与发展. 2017(07)
[10]概念漂移数据流挖掘算法综述[J]. 丁剑,韩萌,李娟. 计算机科学. 2016(12)
博士论文
[1]基于概念漂移的数据流集成分类算法研究[D]. 任思琪.湖南大学 2018
硕士论文
[1]基于在线迁移学习的概念漂移数据流分类算法研究[D]. 唐诗淇.桂林电子科技大学 2017
[2]数据流概念漂移检测和不平衡数据流分类算法研究[D]. 白洋.北京交通大学 2017
本文编号:2965920
【文章来源】:北方民族大学宁夏回族自治区
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
数据流分类方法
族大学2020届硕士学位论文 第二章 数据流决决策树分类算法节将数据流决策树分类按照分类模型分为两类,单分类决策树模型和集成分类决图 2-1 所示。其中,单分类模型技术可以维护和增量更新单个(单一)分类模型,地应对概念漂移。相对于单个模型,集成模型需要比单分类更简单的技术更新模型有效地处理概念漂移[50]。更新模型以反映最近的实例并适应内存。具有最低分类精弃用于概念漂移。基于集成的模型比单一的基于增量的方法具有更好的分类精度[5
图 2-2 集成分类方法过程图在数据流决策树集成分类算法中,其中一部分集成决策树算法是基于 Hoeffding 不等式设计的,另外一部分集成算法是基于随机决策树衍生而来的。因此,本节将通过以下两个方面对数据流集成分类决策树算法进行论述。(1)基于 Hoeffding 不等式的集成分类方法Pfahringer 等人在 VFDT 的基础上,提出的霍夫丁选项树(HOT)[69]是一个常规的 Hoeffding树,除了内部决策节点和叶子节点外,还包含额外的选项节点。并且允许应用多个测试,从而将多个 Hoeffding 树作为单独的路径。这个结构使得一个例子可以通过多个不同路径到达多个不同的树节点。目前对数据流分类的研究主要集中在特定的数据流上,通常假设数据流的值是精确和确定的。然而,由于测量不精准、重复采样和网络误差等原因,具有不确定性的数据流在实际应用中是频繁出现的。在 CVFDT 和 DTU 的基础上,提出了不确定处理概念自适应快速决策树(UCVFDT)算法,该算法既保持了 CVFDT 对概念漂移的高速处理能力,又增加了对不确定性数据流的处理能力。实验研究表明 UCVFDT 算法能够有效地对具有不确定数值属性的动态数据
【参考文献】:
期刊论文
[1]基于McDiarmid不等式的决策树分类算法[J]. 贾涛,韩萌,王少峰,邢成. 山西大学学报(自然科学版). 2019(04)
[2]概念漂移数据流集成分类算法综述[J]. 杜诗语,韩萌,申明尧,张春砚,孙蕊. 计算机工程. 2020(01)
[3]SDN中基于机器学习的网络流量分类方法研究[J]. 李兆斌,韩禹,魏占祯,刘泽一. 计算机应用与软件. 2019(05)
[4]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[5]数据流频繁模式挖掘综述[J]. 韩萌,丁剑. 计算机应用. 2019(03)
[6]新型含噪数据流集成分类的算法[J]. 袁泉,郭江帆. 计算机应用. 2018(06)
[7]面向流数据的决策树分类算法并行化[J]. 季一木,张永潘,郎贤波,张殿超,王汝传. 计算机研究与发展. 2017(09)
[8]基于混合式聚类算法的离群点挖掘在异常检测中的应用研究[J]. 尹娜,张琳. 计算机科学. 2017(05)
[9]一种基于决策树的隐私保护数据流分类算法[J]. 陈煜,李玲娟. 计算机技术与发展. 2017(07)
[10]概念漂移数据流挖掘算法综述[J]. 丁剑,韩萌,李娟. 计算机科学. 2016(12)
博士论文
[1]基于概念漂移的数据流集成分类算法研究[D]. 任思琪.湖南大学 2018
硕士论文
[1]基于在线迁移学习的概念漂移数据流分类算法研究[D]. 唐诗淇.桂林电子科技大学 2017
[2]数据流概念漂移检测和不平衡数据流分类算法研究[D]. 白洋.北京交通大学 2017
本文编号:2965920
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2965920.html