基于贝叶斯网络的动态数据流分类研究
发布时间:2021-04-28 10:52
随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。朴素贝叶斯作为一种在线学习方法,简单高效且有坚实的理论基础,被用来解决数据流分类问题,但当数据流中出现概念漂移时,会严重影响其分类性能。同时,其属性条件独立假设要求在现实应用中通常无法满足。基于以上问题,本文以朴素贝叶斯算法为基础,做改进研究:(1)为解决分类中特征空间维度过高的问题以及朴素贝叶斯算法属性条件独立假设的不足,提出了一种基于信息论的属性选择分类框架。通过分析Jeffreys散度与贝叶斯分类器Ⅰ型和Ⅱ型错误相关性质,针对Jeffreys散度在多元分布下的局限性,引入衡量多分布差异的Multi-Jeffreys-Hypothesis(MJH)度量,提出基于MJH的选择性朴素贝叶斯分类算法。实验结果表明了算法的良好分类效果与收敛性。(2)针对朴素贝叶斯分类器没有检测与处理概念漂移的机制,无法处理非静止情况下的流式数据分类。本文提出一种基于遗忘机制的加权朴素贝叶斯算法。通过遗忘机...
【文章来源】:西安理工大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 本文组织结构
2 相关理论概述
2.1 概率论基础
2.2 贝叶斯分类算法
2.2.1 朴素贝叶斯分类器
2.2.2 贝叶斯网络分类器
2.2.3 扩展的朴素贝叶斯分类器
2.3 概念漂移
2.3.1 概念漂移介绍
2.3.2 概念漂移处理策略
2.4 本章小结
3 选择性朴素贝叶斯分类算法
3.1 属性选择的理论框架
3.1.1 常用属性选择方法
3.1.2 二元假设检验的差异性度量
3.2 基于MJH散度的选择性NB算法
3.2.1 多元假设下的MJH散度
3.2.2 基于MJH散度的选择性NB算法
3.3 实验分析
3.3.1 数据集
3.3.2 评估指标
3.3.3 实验结果分析
3.4 本章小结
4 基于概念漂移的改进朴素贝叶斯算法
4.1 理论基础
4.1.1 基于数据块的集成式学习方法
4.1.2 知识迁移
4.2 基于遗忘机制的加权朴素贝叶斯算法
4.2.1 基于遗忘机制的加权策略
4.2.2 FWNB算法实现
4.2.3 实验分析
4.3 基于知识迁移的集成式朴素贝叶斯算法
4.3.1 基于知识迁移的模型使用策略
4.3.2 FTENB算法实现
4.4 实验分析
4.4.1基于仿真数据的实验
4.4.2基于真实数据的实验
4.4.3 历史模型数量对性能的影响
4.5 本章小结
5 总结与展望
5.1 总结
5.2 研究展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]概念的属性约简及异构数据概念漂移探测[J]. 邓大勇,卢克文,黄厚宽,邓志轩. 电子学报. 2018(05)
[2]Embedding based quantile regression neural network for probabilistic load forecasting[J]. Dahua GAN,Yi WANG,Shuo YANG,Chongqing KANG. Journal of Modern Power Systems and Clean Energy. 2018(02)
[3]面向分布式数据流大数据分类的多变量决策树[J]. 张宇,包研科,邵良杉,刘威. 自动化学报. 2018(06)
[4]应对倾斜数据流在线连接方法[J]. 王春凯,孟小峰. 软件学报. 2018(03)
[5]基于森林优化特征选择算法的改进研究[J]. 初蓓,李占山,张梦林,于海鸿. 软件学报. 2018(09)
[6]改进朴素贝叶斯模型的复杂网络关系预测[J]. 伍杰华,沈静,周蓓. 计算机工程与科学. 2017(10)
[7]基于国土资源的大数据应用研究[J]. 王星月,马友华,王静,毛雪. 国土与自然资源研究. 2017(04)
[8]基于最大信息系数的贝叶斯网络结构学习算法[J]. 曾千千,曾安,潘丹,杨海东,邓杰航. 计算机工程. 2017(08)
[9]基于信息熵的自适应网络流概念漂移分类方法[J]. 潘吴斌,程光,郭晓军,黄顺翔. 计算机学报. 2017(07)
本文编号:3165351
【文章来源】:西安理工大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 本文主要研究内容
1.4 本文组织结构
2 相关理论概述
2.1 概率论基础
2.2 贝叶斯分类算法
2.2.1 朴素贝叶斯分类器
2.2.2 贝叶斯网络分类器
2.2.3 扩展的朴素贝叶斯分类器
2.3 概念漂移
2.3.1 概念漂移介绍
2.3.2 概念漂移处理策略
2.4 本章小结
3 选择性朴素贝叶斯分类算法
3.1 属性选择的理论框架
3.1.1 常用属性选择方法
3.1.2 二元假设检验的差异性度量
3.2 基于MJH散度的选择性NB算法
3.2.1 多元假设下的MJH散度
3.2.2 基于MJH散度的选择性NB算法
3.3 实验分析
3.3.1 数据集
3.3.2 评估指标
3.3.3 实验结果分析
3.4 本章小结
4 基于概念漂移的改进朴素贝叶斯算法
4.1 理论基础
4.1.1 基于数据块的集成式学习方法
4.1.2 知识迁移
4.2 基于遗忘机制的加权朴素贝叶斯算法
4.2.1 基于遗忘机制的加权策略
4.2.2 FWNB算法实现
4.2.3 实验分析
4.3 基于知识迁移的集成式朴素贝叶斯算法
4.3.1 基于知识迁移的模型使用策略
4.3.2 FTENB算法实现
4.4 实验分析
4.4.1基于仿真数据的实验
4.4.2基于真实数据的实验
4.4.3 历史模型数量对性能的影响
4.5 本章小结
5 总结与展望
5.1 总结
5.2 研究展望
致谢
参考文献
攻读硕士学位期间主要研究成果
【参考文献】:
期刊论文
[1]概念的属性约简及异构数据概念漂移探测[J]. 邓大勇,卢克文,黄厚宽,邓志轩. 电子学报. 2018(05)
[2]Embedding based quantile regression neural network for probabilistic load forecasting[J]. Dahua GAN,Yi WANG,Shuo YANG,Chongqing KANG. Journal of Modern Power Systems and Clean Energy. 2018(02)
[3]面向分布式数据流大数据分类的多变量决策树[J]. 张宇,包研科,邵良杉,刘威. 自动化学报. 2018(06)
[4]应对倾斜数据流在线连接方法[J]. 王春凯,孟小峰. 软件学报. 2018(03)
[5]基于森林优化特征选择算法的改进研究[J]. 初蓓,李占山,张梦林,于海鸿. 软件学报. 2018(09)
[6]改进朴素贝叶斯模型的复杂网络关系预测[J]. 伍杰华,沈静,周蓓. 计算机工程与科学. 2017(10)
[7]基于国土资源的大数据应用研究[J]. 王星月,马友华,王静,毛雪. 国土与自然资源研究. 2017(04)
[8]基于最大信息系数的贝叶斯网络结构学习算法[J]. 曾千千,曾安,潘丹,杨海东,邓杰航. 计算机工程. 2017(08)
[9]基于信息熵的自适应网络流概念漂移分类方法[J]. 潘吴斌,程光,郭晓军,黄顺翔. 计算机学报. 2017(07)
本文编号:3165351
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3165351.html