基于机器学习抑制概念漂移不良影响的应用研究
发布时间:2021-01-04 05:06
随着互联网技术的不断发展,大数据技术在各个领域的应用越来越多,包括通讯数据的分析、生产类数据对产品开发的帮助、电子商务和金融监管领域等。与传统数据挖掘相比,当今的数据流挖掘具有海量性,无限性,动态性等特点。这使得传统的挖掘算法已经无法完全适应当下的数据流挖掘应用。在大数据技术发展和大量应用的当下,从数据流中挖掘信息已经成为国内外的研究重点。本文的研究内容是有关在征信系统中信用评估应用出现概念漂移时的应对策略研究,以及应对策略对整个系统复杂度,及其造成影响的研究。具体内容包含三个方面。首先,本文采用了改进型的集成算法,以改进算法提升模型对动态数据流的适应情况,减少概念漂移的不良影响。然后,使用滑动窗口策略,基于数据概率分布特点划分数据段,在不同的维度抑制概念漂移的影响。最后,研究抑制概念漂移时防止系统出现过拟合问题。具体研究工作如下:第一点,本文使用混合类型的集成算法,结合决策树和k近邻算法,以非同质集成的方法降低概念漂移的影响。第二点,本文使用滑动窗口技术将数据流划分成大小相同的窗口单元进行处理,提升滑动窗口的准确率,使得应对概念漂移的效果更加有效稳定。第三点,在抑制概念漂移的应用系统...
【文章来源】:南京邮电大学江苏省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
数据流挖掘处理过程
图 2.1 概念漂移的分类在发生概念漂移后直接比较两个不同的概念是不可能的,因为这说明已经确定了不同的概念,并且对其定义过了,这是不现实的行为。这是因为在现实的情况下,概念漂移发时间和类型甚至是否发生过,这都是不能够确定的[21]。所以,一般会采取从侧面出击的来处理。比如,考虑可能引起的原因,由于环境或者时间造成了数据流中数据特征的分生变化。又或者是概念漂移发生后引起的后果,比如决策树的分枝大量增加或是在有样照的情况下发现分类的正确率大幅下滑。这些考虑因素包括分类的错误率和准确率,特关联性,时间变化,概率的分布等。常见的,概念漂移的检测被分为三类方法,一般包括示例选择,示例加权和集成学习方在真正的应用当中,是不会特别的使用一种分类方式,而是根据具体的需要,采用混合式。比如,被广泛使用的基于示例选择和集成学习模型的混合方式就是常见的一类。传法是用真实类标签检测概念漂移的发生,对于持续不断到来的高速数据流,这种方案难现。所以提出了基于少量类标签的概念漂移检测方法[22]。 不被任何模型覆盖的实例数要
概念漂移应用的领域包括:web 数据,亚马逊等购物数据,银行数据,天气预报,集群计算机负载平衡处理,信用卡欺诈数据,日程提醒,电价预测,垃圾邮件过滤,电视节目收看数据集,视听说话识别,可穿戴设备,传感网数据,金融时间序列,航班延误,电影标注数据集等。2.2 集成算法技术数据流挖掘越来越受到学术界和工业界的重视,这是因为其在工业,电信,服务,交通等行业的广泛应用,其中集成学习作为处理数据流的方法中应用次数最多。集成学习最大的特点是可以集合多个学习算法,从而构造出更好的算法,这对现在高速且无限的数据流学习工作是一个有建设性的模型。本章主要介绍了集成学习的基本原理,常见应用,可能使用到的框架和模型[24]。
【参考文献】:
期刊论文
[1]GARCH模型与EGARCH模型的深股波动率特征分析比较[J]. 王婧伊,解怡萌,陈芳琪. 科技展望. 2015(31)
[2]基于生理振动分析的手机用户身份识别[J]. 刘升,兰少峰. 计算机工程与设计. 2015(06)
[3]小数据集条件下基于双重约束的BN参数学习[J]. 郭志高,高晓光,邸若海. 自动化学报. 2014(07)
[4]一种基于标签相关性的多标签分类算法[J]. 王霄,周李威,陈耿,朱玉全. 计算机应用研究. 2014(09)
[5]上市公司内部控制信息披露研究——基于2012年沪市数据[J]. 陈留平,胡悦. 江苏大学学报(社会科学版). 2013(06)
[6]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀. 计算机科学. 2013(04)
[7]岩爆等级预测的随机森林模型及应用(英文)[J]. 董陇军,李夕兵,彭康. Transactions of Nonferrous Metals Society of China. 2013(02)
[8]基于EGARCH模型的远期开始期权定价[J]. 王献东. 合肥工业大学学报(自然科学版). 2012(08)
[9]基于少量类标签的概念漂移检测算法[J]. 李南,郭躬德,陈黎飞. 计算机应用. 2012(08)
[10]多分类器融合算法研究与应用[J]. 张欣,梁宗保. 湘潭大学自然科学学报. 2011(02)
博士论文
[1]在线新闻评论的情感分析研究[D]. 张莹.南开大学 2013
[2]组稀疏子空间的大间隔特征选择[D]. 刘波.重庆大学 2013
[3]海量动态数据流分类方法研究[D]. 姚远.大连理工大学 2013
[4]数据流中概念漂移检测与分类方法研究[D]. 李培培.合肥工业大学 2012
硕士论文
[1]杭州招商银行信用卡客户分类[D]. 余旋.重庆大学 2016
[2]一种基于矩阵分解的用户行为数据多任务学习模型[D]. 冯丽丽.电子科技大学 2016
[3]数据挖掘技术在高校教师科研管理中的应用研究[D]. 丁磊.大连海事大学 2016
[4]中文社区问答系统中问题检索技术研究[D]. 李吉月.北京理工大学 2016
[5]基于数据挖掘的铁路客运客户关系管理研究[D]. 任艳娟.兰州交通大学 2014
[6]短信自动分类技术研究与应用[D]. 李继刚.东华大学 2013
[7]基于可变滑动窗口的数据流闭合频繁模式挖掘研究[D]. 范玉玲.江苏科技大学 2011
本文编号:2956208
【文章来源】:南京邮电大学江苏省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
数据流挖掘处理过程
图 2.1 概念漂移的分类在发生概念漂移后直接比较两个不同的概念是不可能的,因为这说明已经确定了不同的概念,并且对其定义过了,这是不现实的行为。这是因为在现实的情况下,概念漂移发时间和类型甚至是否发生过,这都是不能够确定的[21]。所以,一般会采取从侧面出击的来处理。比如,考虑可能引起的原因,由于环境或者时间造成了数据流中数据特征的分生变化。又或者是概念漂移发生后引起的后果,比如决策树的分枝大量增加或是在有样照的情况下发现分类的正确率大幅下滑。这些考虑因素包括分类的错误率和准确率,特关联性,时间变化,概率的分布等。常见的,概念漂移的检测被分为三类方法,一般包括示例选择,示例加权和集成学习方在真正的应用当中,是不会特别的使用一种分类方式,而是根据具体的需要,采用混合式。比如,被广泛使用的基于示例选择和集成学习模型的混合方式就是常见的一类。传法是用真实类标签检测概念漂移的发生,对于持续不断到来的高速数据流,这种方案难现。所以提出了基于少量类标签的概念漂移检测方法[22]。 不被任何模型覆盖的实例数要
概念漂移应用的领域包括:web 数据,亚马逊等购物数据,银行数据,天气预报,集群计算机负载平衡处理,信用卡欺诈数据,日程提醒,电价预测,垃圾邮件过滤,电视节目收看数据集,视听说话识别,可穿戴设备,传感网数据,金融时间序列,航班延误,电影标注数据集等。2.2 集成算法技术数据流挖掘越来越受到学术界和工业界的重视,这是因为其在工业,电信,服务,交通等行业的广泛应用,其中集成学习作为处理数据流的方法中应用次数最多。集成学习最大的特点是可以集合多个学习算法,从而构造出更好的算法,这对现在高速且无限的数据流学习工作是一个有建设性的模型。本章主要介绍了集成学习的基本原理,常见应用,可能使用到的框架和模型[24]。
【参考文献】:
期刊论文
[1]GARCH模型与EGARCH模型的深股波动率特征分析比较[J]. 王婧伊,解怡萌,陈芳琪. 科技展望. 2015(31)
[2]基于生理振动分析的手机用户身份识别[J]. 刘升,兰少峰. 计算机工程与设计. 2015(06)
[3]小数据集条件下基于双重约束的BN参数学习[J]. 郭志高,高晓光,邸若海. 自动化学报. 2014(07)
[4]一种基于标签相关性的多标签分类算法[J]. 王霄,周李威,陈耿,朱玉全. 计算机应用研究. 2014(09)
[5]上市公司内部控制信息披露研究——基于2012年沪市数据[J]. 陈留平,胡悦. 江苏大学学报(社会科学版). 2013(06)
[6]多标签数据挖掘技术:研究综述[J]. 李思男,李宁,李战怀. 计算机科学. 2013(04)
[7]岩爆等级预测的随机森林模型及应用(英文)[J]. 董陇军,李夕兵,彭康. Transactions of Nonferrous Metals Society of China. 2013(02)
[8]基于EGARCH模型的远期开始期权定价[J]. 王献东. 合肥工业大学学报(自然科学版). 2012(08)
[9]基于少量类标签的概念漂移检测算法[J]. 李南,郭躬德,陈黎飞. 计算机应用. 2012(08)
[10]多分类器融合算法研究与应用[J]. 张欣,梁宗保. 湘潭大学自然科学学报. 2011(02)
博士论文
[1]在线新闻评论的情感分析研究[D]. 张莹.南开大学 2013
[2]组稀疏子空间的大间隔特征选择[D]. 刘波.重庆大学 2013
[3]海量动态数据流分类方法研究[D]. 姚远.大连理工大学 2013
[4]数据流中概念漂移检测与分类方法研究[D]. 李培培.合肥工业大学 2012
硕士论文
[1]杭州招商银行信用卡客户分类[D]. 余旋.重庆大学 2016
[2]一种基于矩阵分解的用户行为数据多任务学习模型[D]. 冯丽丽.电子科技大学 2016
[3]数据挖掘技术在高校教师科研管理中的应用研究[D]. 丁磊.大连海事大学 2016
[4]中文社区问答系统中问题检索技术研究[D]. 李吉月.北京理工大学 2016
[5]基于数据挖掘的铁路客运客户关系管理研究[D]. 任艳娟.兰州交通大学 2014
[6]短信自动分类技术研究与应用[D]. 李继刚.东华大学 2013
[7]基于可变滑动窗口的数据流闭合频繁模式挖掘研究[D]. 范玉玲.江苏科技大学 2011
本文编号:2956208
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2956208.html