基于某商业银行KPI数据的概念漂移检测和关联性分析

发布时间：2021-08-16 00:59

　　随着大数据技术的飞速发展,网络规模也较过去几何级数增长,IT运维系统高效快速的处理也逐渐成为热点。同时,由于机器学习技术的普及。将各种机器学习方法与运维技术结合,形成人工智能运维AIOps（Artifical Intelligence Operations）技术。在这一背景下,本文以实际某商业银行的KPI数据,研究了KPI（关键性能指标Key Performance Indicator）概念漂移检测和基于相似度的关联性分析问题。本文的主要工作如下:1.介绍AIOps的发展历程,重点介绍针对运维数据的概念漂移测和关联性分析的研究现状。并由此阐述该相关研究的重要意义。2.提出综合法来进行概念漂移检测,概念漂移是指运维数据的分布发生了显著变化。一般的异常值检测算法由于依靠采集一段时间窗口内的历史数据进行计算,在数据分布发生改变后无法及时进行调整,会出现一段时间的误报,直到窗口数据完全滑动到变化后的数据之后误报才能停止。精准的确定概念漂移后,可以及时对算法进行调整,有效的减少误报。目前较为完善的方法为StepWise方法。本文在StepWise方法的基础上结合核密度估计来对概念漂移进行检测。并...

【文章来源】：山东大学山东省 211工程院校 985工程院校教育部直属院校

【文章页数】：64 页

【学位级别】：硕士

【部分图文】：

图２．２：周期性数据??其次，ＫＰＩ数据的值域分为两种，有些指标是通过百分率来衡量，例如内??存占用率，此时数值的值域为０，?１００

周期性,数据,机器学习

?山东大学硕士学位论文???０４－０１?００?０４－０１?１２?０４－０２?００?０４－Ｃ２?１２?０４－０３?００?０４－４５３１２?０４－０４?００?０４－＜Ｓ４?１２?０４－Ｍ?＜ＸＪ??图２．３：聚合前无明显周期性数据??ｊｍａ－ｆｔＲ－ｆｔｊ?７ａｔ＾ａ？－＾ｉ??图２．４：聚合后数据显示周期性??看出周期性。图２．３里的数据是按每分钟的数据量进行作图的，按十分钟的时间??间隔进行聚合后，得到图２．４，可以看出有一定的周期性。??第四，数据颗粒度不一定是均匀的数据颗粒度是指数据的细化程度，??细化程度越高，粒度越校虽然一般设定上是每分钟／三分钟／十分钟统计一次??数据，但是实际上，运维数据经常出现缺失，有时是数分钟，也可能会有数小??时或者数天的情况。这是运维数据处理时必须考虑的情况。也增加了数据处理??的难度。??第五，异常值是少数情况一线运维中，大部分的会报出的错误警告，??都是由于正常的生产情况造成的误报。大部分的警告不影响运维的正常运行。??实际上，ＡＩＯｐｓ需要解决的一个问题并不是难以及时发现异常，而是对于异常??太过于敏感。警告信息太多，而使得真正需要引起运维人员的异常淹没于大量??不必要的异常警报之中，难以得到优先处理。??第六，异常发生的原因是随时间变化的［２８１。异常每次发生的原因，虽然可??能会有相似之处，但是实际由于运维系统的不断更新，实际原因可能随时发生??变化。这也使得传统的有监督的机器学习难以大规模应用在ＡＩＯｐｓ人工智能运??维当中。可以考虑使用无监督的机器学习方法，来解决寻找异常值原因的难??题。??２．２概念漂移概念??概念漂移是机器学习领域

时间序列,时间序列,模型,思路

由此可见，当参数发生变化，导致数据分布发生改变的时候，对??应的点的ＳＳＴ的值也会明显增高。由此可知，可以借此判定发生概念漂移的??占［叫。??…ｎＫｔＫＫ??０?５００?１０００?１５００?２０００?２５００?３０００???ｓｃｏｒｅ???０．０００６?－??０．０００５?－??０．０００４?－??０．０００３－?．?Ｉ??０．０００２－??〇〇〇〇〇．?＿＿＿＿??０?５００?１０００?１５００?２０００?２５００?３０００??图２．５：?ＳＳＴ模型示意图??ｓｉｎｇｕｌａｒ－ｓｐｅｃｔｒｕｍ－ｔｒａｎｓｆｏｒｍａｔｉｏｎ模型（下面称为奇异谱转换或ＳＳＴ）的主??要思路为利用Ｐ?Ｃ?Ａ来探索时间序列当中每个点过去和未来之间差异的“度”。??并且将这种差异度转化为给每个点打分的分值。Ｍｏｓｋｖｉｎａ－Ｚｈｉｇｌｊａｖｓｋｙ提出了??运用奇异谱分析方法来计算改变的度量。这个技术来源于汉克尔矩阵（Ｈａｎｋｅｌ??ｍａｔｒｉｘ）的奇异值分解（ＳＶＤ）。汉克尔矩阵是指每一条逆对角线上的元素??都相等的矩阵。由于奇异值分解可以运用于几乎各种类型的矩阵，而不需要??对矩阵进行特别的调整，因此这种算法可以应用于各种不同类型的时间序??列数据，具有较强的适用性。ＳＳＴ变换的本质是找出每个点前的一系列点，??即（ａ；（ｉ?＿ｐ）?：?ａ；⑷）和之后的一系列点（ａ：（ｉ）?：?；ｒ（ｉ?＋?ｐ））的动态变化。前后的点计算??出的差别经过正则化后，阈值介于０和１之间。本文中将这个差别记为％⑷。??用汉克尔矩阵计算过程如下：用丑⑷来表示汉克尔矩阵，??Ｈ（ｔ）?＝?［ｓｅｑ（ｔ?—?ｎ），?

【参考文献】：
期刊论文
[1]人工智能在网络运维中的应用[J]. 牛小杰.  电子技术与软件工程. 2019(23)
[2]交通银行的智能运维（AIOPS）实践[J]. 郑仕辉.  金融电子化. 2019(01)
[3]SA-DBSCAN:一种自适应基于密度聚类算法[J]. 夏鲁宁,荆继武.  中国科学院研究生院学报. 2009(04)
[4]数据挖掘中GridLOF算法的研究与改进[J]. 王新旭,黄立文.  现代计算机(专业版). 2007(11)
[5]基于核密度估计的分布数据流离群点检测[J]. 杨宜东,孙志挥,张净.  计算机研究与发展. 2005(09)
[6]关联规则挖掘综述[J]. 蔡伟杰,张晓辉,朱建秋,朱扬勇.  计算机工程. 2001(05)

硕士论文
[1]基于机器学习的AIOps技术研究[D]. 黄伟.北京交通大学 2019
[2]基于概念漂移的流数据异常检测平台研究[D]. 徐彬.哈尔滨工业大学 2019

本文编号：3345258

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3345258.html

上一篇：基于全卷积网络的多尺度目标检测研究及应用
下一篇：区块链视角下智能电网数据管理机制研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|