非平衡时序数据的动态时间规整过采样方法研究
发布时间:2021-07-11 06:07
时间序列分类问题广泛存在于动作识别、语音识别、异常检测、医学疾病检测等领域中。在这类分类问题中,常常出现数据非平衡问题,大多数的数据挖掘算法对于数据类别相对平衡的假设前提无法满足,导致最终的学习效果不理想。并且,时序数据具有高维性、允许时间上的位置偏移和尺度缩放、存在时序上动态关联等有别于横截面数据的特点,已有的非平衡横截面数据的处理方法还不能直接应用于非平衡时间序列的处理过程中。本文考虑到时序数据的特点,提出了一种针对非平衡时序数据的过采样方法,在动态时间规整(DTW)定义的度量空间下,进行安全集与噪声集划分、权值修正、近邻选择、路径插值,在安全集中每个少数类样本与其k近邻中的少数类样本之间按修正权重生成新的时序样本。选择UCR时序数据库中的12个非平衡数据集,使用高斯过程分类模型,检验过采样方法效果。实证分析结果表明:(1)本文的方法(SDTW)生成的新样本较ROS、SMOTE、BSMOTE等方法均匀,两类样本的边界清晰,尽量保持原样本的分布,在近邻选择上仅选择同类,克服了SMOTE近邻选择的盲目性,且位于噪声集的少数类周围不生成人工样本,有效防止了引入额外的噪声。(2)对非平衡时...
【文章来源】:暨南大学广东省 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
ROC曲线
图 3-1 代价矩阵和最小代价路径示意图展示两个序列的代价矩阵和规整代价最小的路经,DTW 需要计算值,然后搜索出规整代价最小的路径。图中规整路径为 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路径上存在垂直线和水平线,
图 3-2 两个序列的规整示意图为两个序列的规整示意图,序列 A 和序列 B 存在位置偏移和尺出两者距离极小,相似度较高。够有效度量时序数据之间的相似性,时间和空间复杂度为 O(N2)
本文编号:3277496
【文章来源】:暨南大学广东省 211工程院校
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
ROC曲线
图 3-1 代价矩阵和最小代价路径示意图展示两个序列的代价矩阵和规整代价最小的路经,DTW 需要计算值,然后搜索出规整代价最小的路径。图中规整路径为 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路径上存在垂直线和水平线,
图 3-2 两个序列的规整示意图为两个序列的规整示意图,序列 A 和序列 B 存在位置偏移和尺出两者距离极小,相似度较高。够有效度量时序数据之间的相似性,时间和空间复杂度为 O(N2)
本文编号:3277496
本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/3277496.html