基于主动学习和变分自编码器的时间序列异常检测研究
发布时间:2021-06-09 21:08
异常检测旨在发现与大多数数据模式不匹配的实例。对于传统的时间序列异常检测算法而言,由于数据具有高维特性,在降维的过程中经常丢失一部分信息,造成检测错误。对于近年较为热门的基于深度学习的异常检测算法而言,该半监督方法需要仅包含正常样本的训练集,但是现实数据是正常和异常的混合,并且异常具有少而不同的特点,所以在构建训练集的过程中需要耗费高代价进行人工标注,并且容易混入噪声样本,降低模型准确率。针对上述问题,本文提出了基于变分自编码器的主动异常检测框架(ALBLVE)。该框架基于池的批处理模式,在混合的样本池中,通过趋势表示的分段聚合采样策略找到一批最小熵样本,再基于重构编码的分类器找到异常时间序列和子序列。在采样策略模块,本文提出趋势表示的分段聚合采样策略(TPAA),针对降维信息损失和滑动窗口敏感问题,使用二进制字符串来记录局部时间的相对趋势和形状特征,用均差值代替原有的PAA距离,并通过理论证明该相似度方法是分段聚合方法PAA的严格下界。为了适应异常检测场景,根据最小熵原理,本文选择了一批正常置信度高的样本,该批样本具有较高的代表性可以有效减少训练样本的数量。在基分类器模块,本文在变分...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
主动学习的五大模块
哈尔滨工业大学工学硕士学位论文-6-图1-1主动学习的五大模块主动学习算法可以分为三种学习算法来构建未标记数据集U模块:基于流的、基于池、基于模型生成样本的方法,如图1-2所示。基于模型生成样本的方法是学习者自己生成或者构建样本;基于流的方法从输入的数据流中选择单个样本进行标注,有利于在线学习;基于池的方法中,假设存在大量未标记的实例,并且对整个池进行彻底的搜索。图1-2三种形式的主动学习主动学习中,选择策略Q是用来选择或者生成新查询的信息量度量,可以分为基于不确定性、基于版本空间缩减、基于泛化误差缩减三种采样策略。对于不确定性采样策略,它选择当前模型中最不确定的未标记样本。这可以通过最接近决策边界的采样[38]或基于熵[39]得到。2016年Yang和Loog[40]使用最小距离采样来训练支持向量机(SVMs)。最小距离采样也是应用广泛的不确定采样策略,它假设分类器对分离超平面附近的样本不确定。不确定-稠密抽样方法[41,42]的目的是通过选择不确定的并且位于数据分布的稠密区域的数据,该稠密区域数据具有数据代表性,可以用来纠正与不确定抽样有关的问题。对于基于版本空间缩减采样策略,常见的有委员会投票算法,使用多个模型作为一个委
哈尔滨工业大学工学硕士学位论文-11-样性,防止冗余。定义2-8不确定性准则[48]。信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。H()PIPlogPiiibiiiXxxxx(2-5)定义2-9多样性准则[48]。计算标记数据和未标记数据之间的相似度。将与经过标记数据比较相似的样本作为简单样本,每次主动学习进行样本选择时,选择难以区分的样本,也就是挑出和已标记数据不太像的样本。定义2-10无监督异常检测算法。给定一个数据集,其中包含正常和异常实例,必须找到其中的异常实例。没有测试集的概念,因为异常的实例必须在数据集本身排序:fullX~p(x)(2-6)从定义2-10中可以得出结论,如果不事先考虑异常分布,无监督异常检测是一个无法判定的问题。一个更具体的例子可以在图2-1中显示。图2-1聚类后无法判定的异常数据实例从无监督的异常检测算法的定义中可以得出结论,如果没有事先知道异常的分布,无监督异常检测没有办法判定异常。图2-1展示了一个合成的数据分布,图中所有的点表示实例,该图已经过无监督聚类,不同颜色表示不同的簇。在这张图中红色圆圈的点已经距离两个明显的簇中心很远。在这种情况下,该无监督方法无法确定是由低密度聚类组成的数据点为异常,还是未聚类的低密度点为异常,或者是两者的组合。在实际环境中,网络入侵攻击(异常)通常是聚集的数据点,而医疗保险欺诈可以是聚集的或分散的(低密度)点。在临床资料中,一些低密度的聚类可能提示疾病(异常),而另一些低密度的聚类可能是由数据中不受控制的因素引起的,如高水平运动员。我们希望能够区分异常和无
【参考文献】:
期刊论文
[1]基于序列重要点的时间序列分割[J]. 周大镯,李敏强. 计算机工程. 2008(23)
本文编号:3221317
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
主动学习的五大模块
哈尔滨工业大学工学硕士学位论文-6-图1-1主动学习的五大模块主动学习算法可以分为三种学习算法来构建未标记数据集U模块:基于流的、基于池、基于模型生成样本的方法,如图1-2所示。基于模型生成样本的方法是学习者自己生成或者构建样本;基于流的方法从输入的数据流中选择单个样本进行标注,有利于在线学习;基于池的方法中,假设存在大量未标记的实例,并且对整个池进行彻底的搜索。图1-2三种形式的主动学习主动学习中,选择策略Q是用来选择或者生成新查询的信息量度量,可以分为基于不确定性、基于版本空间缩减、基于泛化误差缩减三种采样策略。对于不确定性采样策略,它选择当前模型中最不确定的未标记样本。这可以通过最接近决策边界的采样[38]或基于熵[39]得到。2016年Yang和Loog[40]使用最小距离采样来训练支持向量机(SVMs)。最小距离采样也是应用广泛的不确定采样策略,它假设分类器对分离超平面附近的样本不确定。不确定-稠密抽样方法[41,42]的目的是通过选择不确定的并且位于数据分布的稠密区域的数据,该稠密区域数据具有数据代表性,可以用来纠正与不确定抽样有关的问题。对于基于版本空间缩减采样策略,常见的有委员会投票算法,使用多个模型作为一个委
哈尔滨工业大学工学硕士学位论文-11-样性,防止冗余。定义2-8不确定性准则[48]。信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。H()PIPlogPiiibiiiXxxxx(2-5)定义2-9多样性准则[48]。计算标记数据和未标记数据之间的相似度。将与经过标记数据比较相似的样本作为简单样本,每次主动学习进行样本选择时,选择难以区分的样本,也就是挑出和已标记数据不太像的样本。定义2-10无监督异常检测算法。给定一个数据集,其中包含正常和异常实例,必须找到其中的异常实例。没有测试集的概念,因为异常的实例必须在数据集本身排序:fullX~p(x)(2-6)从定义2-10中可以得出结论,如果不事先考虑异常分布,无监督异常检测是一个无法判定的问题。一个更具体的例子可以在图2-1中显示。图2-1聚类后无法判定的异常数据实例从无监督的异常检测算法的定义中可以得出结论,如果没有事先知道异常的分布,无监督异常检测没有办法判定异常。图2-1展示了一个合成的数据分布,图中所有的点表示实例,该图已经过无监督聚类,不同颜色表示不同的簇。在这张图中红色圆圈的点已经距离两个明显的簇中心很远。在这种情况下,该无监督方法无法确定是由低密度聚类组成的数据点为异常,还是未聚类的低密度点为异常,或者是两者的组合。在实际环境中,网络入侵攻击(异常)通常是聚集的数据点,而医疗保险欺诈可以是聚集的或分散的(低密度)点。在临床资料中,一些低密度的聚类可能提示疾病(异常),而另一些低密度的聚类可能是由数据中不受控制的因素引起的,如高水平运动员。我们希望能够区分异常和无
【参考文献】:
期刊论文
[1]基于序列重要点的时间序列分割[J]. 周大镯,李敏强. 计算机工程. 2008(23)
本文编号:3221317
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3221317.html