面向流式数据的演化式预测技术研究
发布时间:2022-10-20 18:31
近年来,随着信息科技的发展,数据的累积正在飞速的发展,使得机器学习和数据挖掘领域也得到了飞速的发展。然而,越来越多的数据是以流式数据出现的。与传统批数据不同,流数据具有速度快,数据量大,不可再现,有序等特点,使得传统的批处理预测技术不太适合这些流数据。面对数据流出现的各种特点,本文研究的内容是面向数据流的演化式预测技术。增量学习主要是针对流式数据的一种技术,当数据流源源不断到来时,原来的学习模型随着新数据的到来进行调整,模型参数也随之变化。概念漂移是数据流的特点之一,这也是现如今数据流挖掘领域最大的挑战之一。当数据流逐渐发生概念漂移时,由于数据分布发生变化,其学习模型对于数据流的预测性能慢慢下降。故需要能够及时探测其是否发生概念漂移,然后对模型进行调整和训练,之后再进行动态数据流的预测。本文针对数据流中概念漂移的发生,概述目前已有的探测与解决方法。然后针对该研究所面临的问题,提出本文的研究课题。针对稠密的数据流,本文提出一种基于无限的,高速的,时间变化的数据流,能够增量地学习数据流的竞争集成算法。该算法集成两棵增量模型树FIMT-DD,基模型FIMT-DD是一个时间变化学习数据流的算法...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据挖掘的研究现状
1.2.2 数据流的研究现状
1.2.3 面对概念漂移的研究现状
1.3 本文主要研究内容
1.4 本文组织结构
第2章 相关技术基础
2.1 批处理机器学习
2.1.1 机器学习基础
2.1.2 分类和回归
2.1.3 决策树
2.1.4 逻辑回归
2.2 流处理学习
2.2.1 流数据基本概念
2.2.2 增量支持向量机
2.2.3 霍夫丁树
2.2.4 增量模型树
2.2.5 在线bagging和 boosting
2.3 概念漂移
2.3.1 概念漂移基础
2.3.2 概念漂移探测
2.3.3 处理概念漂移
2.4 最优化算法
2.4.1 梯度下降
2.4.2 批梯度下降
2.4.3 在线梯度下降
2.5 本章小结
第3章 基于滑动窗口的竞争集成模型
3.1 引言
3.2 问题描述与解决思路
3.2.1 问题描述
3.2.2 解决思路
3.3 竞争集成算法的构造
3.3.1 FIMT-DD树
3.3.2 竞争集成算法
3.4 实验与分析
3.4.1 实验步骤
3.4.2 实验结果与分析
3.5 本章小结
第4章 基于稀疏数据流的预测算法
4.1 引言
4.2 稀疏数据流算法的引入
4.2.1 正则化
4.2.2 截断与梯度截断
4.2.3 前后项分裂算法
4.2.4 RDA算法
4.2.5 FTRL算法
4.3 稀疏数据流算法FTRL的改进
4.3.1 概念漂移探测PHW测试
4.3.2 概念漂移FTRL_PHW算法
4.4 实验与分析
4.4.1 超平面仿真数据集
4.4.2 参数的设定和评估指标
4.4.3 实验结果
4.5 基于概念漂移的学习率适应
4.6 本章小结
结论
参考文献
附录A 攻读学位期间所发表的学术论文和专利
附录B 攻读学位期间所参与的科研活动
致谢
【参考文献】:
期刊论文
[1]一种基于深度属性加权的数据流自适应集成分类算法[J]. 李尧,王志海,孙艳歌,张伟. 山东大学学报(工学版). 2018(06)
[2]新型含噪数据流集成分类的算法[J]. 袁泉,郭江帆. 计算机应用. 2018(06)
[3]基于聚类假设的数据流分类算法[J]. 李南. 模式识别与人工智能. 2017(01)
[4]一种基于双层窗口的概念漂移数据流分类算法[J]. 朱群,张玉红,胡学钢,李培培. 自动化学报. 2011(09)
[5]IKnnM-DHecoc:一种解决概念漂移问题的方法[J]. 辛轶,郭躬德,陈黎飞,毕亚新. 计算机研究与发展. 2011(04)
[6]基于可信多数投票的快速概念漂移检测[J]. 文益民,王耀南,张莹. 湖南大学学报(自然科学版). 2010(06)
[7]一种挖掘概念漂移数据流的选择性集成算法[J]. 关菁华,刘大有. 计算机科学. 2010(01)
硕士论文
[1]高维稀疏数据的相关性度量方法研究[D]. 刘帅.首都经济贸易大学 2014
本文编号:3695085
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 数据挖掘的研究现状
1.2.2 数据流的研究现状
1.2.3 面对概念漂移的研究现状
1.3 本文主要研究内容
1.4 本文组织结构
第2章 相关技术基础
2.1 批处理机器学习
2.1.1 机器学习基础
2.1.2 分类和回归
2.1.3 决策树
2.1.4 逻辑回归
2.2 流处理学习
2.2.1 流数据基本概念
2.2.2 增量支持向量机
2.2.3 霍夫丁树
2.2.4 增量模型树
2.2.5 在线bagging和 boosting
2.3 概念漂移
2.3.1 概念漂移基础
2.3.2 概念漂移探测
2.3.3 处理概念漂移
2.4 最优化算法
2.4.1 梯度下降
2.4.2 批梯度下降
2.4.3 在线梯度下降
2.5 本章小结
第3章 基于滑动窗口的竞争集成模型
3.1 引言
3.2 问题描述与解决思路
3.2.1 问题描述
3.2.2 解决思路
3.3 竞争集成算法的构造
3.3.1 FIMT-DD树
3.3.2 竞争集成算法
3.4 实验与分析
3.4.1 实验步骤
3.4.2 实验结果与分析
3.5 本章小结
第4章 基于稀疏数据流的预测算法
4.1 引言
4.2 稀疏数据流算法的引入
4.2.1 正则化
4.2.2 截断与梯度截断
4.2.3 前后项分裂算法
4.2.4 RDA算法
4.2.5 FTRL算法
4.3 稀疏数据流算法FTRL的改进
4.3.1 概念漂移探测PHW测试
4.3.2 概念漂移FTRL_PHW算法
4.4 实验与分析
4.4.1 超平面仿真数据集
4.4.2 参数的设定和评估指标
4.4.3 实验结果
4.5 基于概念漂移的学习率适应
4.6 本章小结
结论
参考文献
附录A 攻读学位期间所发表的学术论文和专利
附录B 攻读学位期间所参与的科研活动
致谢
【参考文献】:
期刊论文
[1]一种基于深度属性加权的数据流自适应集成分类算法[J]. 李尧,王志海,孙艳歌,张伟. 山东大学学报(工学版). 2018(06)
[2]新型含噪数据流集成分类的算法[J]. 袁泉,郭江帆. 计算机应用. 2018(06)
[3]基于聚类假设的数据流分类算法[J]. 李南. 模式识别与人工智能. 2017(01)
[4]一种基于双层窗口的概念漂移数据流分类算法[J]. 朱群,张玉红,胡学钢,李培培. 自动化学报. 2011(09)
[5]IKnnM-DHecoc:一种解决概念漂移问题的方法[J]. 辛轶,郭躬德,陈黎飞,毕亚新. 计算机研究与发展. 2011(04)
[6]基于可信多数投票的快速概念漂移检测[J]. 文益民,王耀南,张莹. 湖南大学学报(自然科学版). 2010(06)
[7]一种挖掘概念漂移数据流的选择性集成算法[J]. 关菁华,刘大有. 计算机科学. 2010(01)
硕士论文
[1]高维稀疏数据的相关性度量方法研究[D]. 刘帅.首都经济贸易大学 2014
本文编号:3695085
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3695085.html