不平衡数据的距离加权算法的误差分析
发布时间:2021-11-28 05:37
近年来,随着科技和信息技术的发展,高维小样本问题和不平衡数据问题越来越受研究者的重视。支持向量机算法是最流行的分类算法之一,由于其分类边界的确定只依赖于部分被称之为支持向量的训练样本,这导致其在处理高维小样本数据时产生了“数据堆积”现象,从而影响了其分类效果。距离加权分类算法旨在解决支持向量机在处理高维小样本数据时所固有的“数据堆积”现象,但该算法并不能很好地处理不平衡数据的分类问题。带权的距离加权分类算法的提出旨在通过灵活地选择两类样本的权重改进标准的距离加权分类算法对不平衡数据的分类效果。目前距离加权分类系列算法已得到了广泛的应用,但其数学理论方面的研究还比较缺乏,尤其是缺乏定量的误差分析理论。本论文主要研究带权的距离加权分类算法,旨在统计学习理论的框架下对该算法进行定量的误差分析。首先我们建立了加权比较定理,该定理建立了加权错分误差与加权推广误差之间的关系,其在误差分析中起着关键作用。接着我们通过引入新的投影算子克服了本文中目标函数无界带来的分析上的困难。最后通过概率不等式和覆盖数等技术估计了加权推广误差,并在此基础之上建立了基于核的加权距离加权分类算法的收敛速率。本文为处理不平...
【文章来源】:浙江师范大学浙江省
【文章页数】:40 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 统计学习理论概况
1.2 SVM与 DWD算法
1.2.1 SVM
1.2.2 DWD
1.3 线性WDWD算法
1.4 研究背景
1.5 论文结构
2 基于核的WDWD算法和主要结果
2.1 基于核的WDWD算法
2.2 收敛速率
2.3 比较定理
3 误差分析
3.1 投影算子及误差分解
3.2 加权推广误差估计
3.3 收敛速率的证明
4 结论
5 附录
参考文献
攻读学位期间取得的研究成果
致谢
【参考文献】:
期刊论文
[1]Classification with Gaussians and convex loss Ⅱ:improving error bounds by noise conditions[J]. XIANG DaoHong Department of Mathematics, Zhejiang Normal University, Jinhua 321004, China. Science China(Mathematics). 2011(01)
[2]不平衡数据分类的研究现状[J]. 林智勇,郝志峰,杨晓伟. 计算机应用研究. 2008(02)
本文编号:3523813
【文章来源】:浙江师范大学浙江省
【文章页数】:40 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 统计学习理论概况
1.2 SVM与 DWD算法
1.2.1 SVM
1.2.2 DWD
1.3 线性WDWD算法
1.4 研究背景
1.5 论文结构
2 基于核的WDWD算法和主要结果
2.1 基于核的WDWD算法
2.2 收敛速率
2.3 比较定理
3 误差分析
3.1 投影算子及误差分解
3.2 加权推广误差估计
3.3 收敛速率的证明
4 结论
5 附录
参考文献
攻读学位期间取得的研究成果
致谢
【参考文献】:
期刊论文
[1]Classification with Gaussians and convex loss Ⅱ:improving error bounds by noise conditions[J]. XIANG DaoHong Department of Mathematics, Zhejiang Normal University, Jinhua 321004, China. Science China(Mathematics). 2011(01)
[2]不平衡数据分类的研究现状[J]. 林智勇,郝志峰,杨晓伟. 计算机应用研究. 2008(02)
本文编号:3523813
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3523813.html