基于分类噪声检测的支持向量机算法研究

发布时间:2017-03-19 04:05

  本文关键词:基于分类噪声检测的支持向量机算法研究,由笔耕文化传播整理发布。


【摘要】:支持向量机(Support Vector Machine,SVM)是基于统计学习理论的一种优秀的机器学习方法。它在最基本的线性可分问题中,采用与结构风险最小化理论一致的间隔最大化原理产生原始凸规划问题模型,使得基本问题模型具有良好的泛化能力。并且由于模型是凸规划模型,所以能够获得全局最优解。在获得这些良好特性的基础上,通过引入惩罚系数和惩罚因子来获得线性不可分问题的问题模型。并通过进一步使用核函数理论来解决非线性问题,从而避免了维数灾难。由于其优异的性能,已经广泛应用于模式分类,密度估计和函数逼近等领域,成为机器学习中的研究热点。本文围绕支持向量机在分类问题中的训练过程和过学习现象,瞄准高维数据中的相对密度计算及与支持向量机的结合为关键问题,以提高支持向量机的训练速度为主要目的,其具体的研究成果主要包括以下几个内容:①通过分析分类问题中噪声数据的特点,引入分类噪声的概念,提出了相对密度模型对其进行检测。分类问题中的噪声数据会明显减弱决策曲线的平滑度,降低决策函数的泛化能力,从而引起过拟合,因而挖掘这些噪声数据具有重要意义。本文针对现有算法无法有效检测分类问题中的噪声数据的问题,基于噪声数据在同类样本集合中的样本密度要小于在异类样本集合中的样本密度,引入了分类噪声的概念,进一步提出了相对密度模型来对分类噪声进行快速有效地检测。仿真实验表明相对密度模型能够很好的识别分类噪声。②通过排除分类噪声将不可分问题转化为可分问题,简化了支持向量机模型和训练过程,并结合序列最小优化(Sequential Minimal Optimization,SMO)算法,提出了基于分类噪声检测的序列最小优化算法(Classification Noises Detection based Sequential Minimal Optimization,CNSMO)。针对现有的支持向量机在训练过程中依赖交叉验证会大幅增加训练时间的问题,CNSMO算法通过排除分类噪声后平滑了决策函数,避免了分类噪声产生的过学习现象,因此在训练过程中不需要使用交叉验证也能够获得良好的预测精度。同时,由于排除分类噪声将不可分问题转化为可分问题,不需要对惩罚系数进行寻优,简化了拉格朗日参数迭代模型。仿真结果表明改进算法能够在不牺牲算法预测精度的前提下,大幅缩短了支持向量机的训练时间,算法具有良好的稳定性。③通过计算到某些固定参考点的度量来衡量不同样本之间的位置差异,以避免直接计算样本之间的欧式距离,提出了基于位置差异的近邻搜索算法(Location Difference based Algorithm,LDBA)。针对在相对密度计算中使用的现有近邻算法在高维数据集中性能下降的问题,LDBA算法使用参考点与样本所构成的角度和距离来度量不同样本点之间的位置差异,避免对样本之间的欧式距离直接进行计算,因此具有较低的算法时间复杂度。另外,LDBA算法不依赖索引树结构,因此在高维数据集中仍然能够保持良好的算法效率。仿真结果表明LDBA算法具有和基本算法接近的预测精度,但比同类算法在高维数据集中表现出了更好的算法效率。④通过将LDBA算法结合到CNSMO算法中,提出了基于位置差异和分类噪声的最小序列化支持向量机算法(Location Difference and Classification Noise based Sequential Minimal Optimization,LD-CNSMO)。针对CNSMO算法在高维数据集中性能下降的问题,将LDBA算法结合到相对密度的计算过程中以检测和消除分类噪声,提出了LD-CNSMO算法。由于LDBA算法不依赖树索引结构,因此LD-CNSMO算法能够在高维数据集中保持良好的算法效率。仿真结果表明LD_CNSMO算法在高维数据集中能够获得比CNSMO和其他算法更好的算法效率。本论文引入分类噪声后,通过使用基于LDBA的相对密度模型进行检测和排除分类噪声,并结合到SMO支持向量机中,避免了在支持向量机训练过程中使用交叉验证。在不影响算法泛化能力的情况下,大幅度提高了算法在低维和高维数据集中的训练效率,并增强了算法稳定性,有效地提高了支持向量机的算法性能。
【关键词】:支持向量机 核函数 分类噪声 相对密度 位置差异 近邻搜算 序列最小优化
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181
【目录】:
  • 中文摘要3-5
  • Abstract5-10
  • 主要符号对照表10-11
  • 1 绪论11-19
  • 1.1 研究背景11-12
  • 1.2 支持向量机的研究现状12-15
  • 1.2.1 支持向量机的算法研究12-15
  • 1.2.2 支持向量机的应用研究15
  • 1.3 论文的研究意义和主要内容15-17
  • 1.3.1 论文的研究意义15
  • 1.3.2 论文的主要研究内容15-16
  • 1.3.3 拟解决的关键问题16-17
  • 1.4 本文的结构安排17-19
  • 2 支持向量机理论基础19-45
  • 2.1 统计学习理论19-25
  • 2.1.1 经验风险最小化准则19-20
  • 2.1.2 学习过程的一致性20-21
  • 2.1.3 VC维与推广能力的界21-22
  • 2.1.4 结构风险最小化原则22-25
  • 2.2 最优化理论25-26
  • 2.3 支持向量机26-40
  • 2.3.1 最优分类超平面26-28
  • 2.3.2 线性支持向量机28-32
  • 2.3.3 核函数和非线性支持向量机32-37
  • 2.3.4 变形支持向量机37-40
  • 2.4 序列最小优化算法40-43
  • 2.5 本章小结43-45
  • 3 基于分类噪声检测的低维支持向量机45-61
  • 3.1 研究背景与问题分析45
  • 3.2 分类噪声45-47
  • 3.3 使用相对密度检测分类噪声47-51
  • 3.3.1 相对密度的定义47-49
  • 3.3.2 相对密度的有效性49-51
  • 3.4 基基于分类噪声检测的序列最小优化算法51-54
  • 3.4.1 C-支持向量机51-52
  • 3.4.2 基于分类噪声检测的序列最小优化模型52-54
  • 3.4.3 算法效率分析54
  • 3.5 仿真实验分析54-59
  • 3.6 本章小结59-61
  • 4 基于位置差异的高维相对密度算法61-85
  • 4.1 基于位置差异的近邻搜索算法61-68
  • 4.1.1 位置差异因子61-64
  • 4.1.2 算法设计64-67
  • 4.1.3 参数 ε 的设置67-68
  • 4.2 仿真实验分析68-79
  • 4.2.1 LDBA算法有效性分析68-72
  • 4.2.2 LDBA算法效率分析72-79
  • 4.3 基于位置差异的高维相对密度算法79-83
  • 4.3.1 算法设计和复杂度分析79-80
  • 4.3.2 仿真实验分析80-83
  • 4.4 本章小结83-85
  • 5 基于位置差异和分类噪声检测的支持向量机85-95
  • 5.1 基于位置差异和分类噪声检测的支持向量机85-87
  • 5.1.1 算法设计85-86
  • 5.1.2 算法效率分析86-87
  • 5.2 仿真实验分析87-93
  • 5.3 本章小结93-95
  • 6 总结和展望95-97
  • 6.1 取得的成果和创新点95
  • 6.2 未来的工作展望95-97
  • 致谢97-99
  • 参考文献99-107
  • 附录107
  • A. 作者在攻读学位期间以第一作者发表的相关论文目录:107
  • B. 作者在攻读学位期间参加的相关科研项目:107

【相似文献】

中国期刊全文数据库 前10条

1 吴娟;范玉妹;王丽;;关于改进的支持向量机的研究[J];攀枝花学院学报;2006年05期

2 刘硕明;刘佳;杨海滨;;一种新的多类支持向量机算法[J];计算机应用;2008年S2期

3 尹传环;牟少敏;田盛丰;黄厚宽;;单类支持向量机的研究进展[J];计算机工程与应用;2012年12期

4 王云英;阎满富;;C-支持向量机及其改进[J];唐山师范学院学报;2012年05期

5 李逢焕;;试述不确定支持向量机应用分析及改进思路[J];中国证券期货;2012年12期

6 邵惠鹤;支持向量机理论及其应用[J];自动化博览;2003年S1期

7 曾嵘,蒋新华,刘建成;基于支持向量机的异常值检测的两种方法[J];信息技术;2004年05期

8 张凡,贺苏宁;模糊判决支持向量机在自动语种辨识中的研究[J];计算机工程与应用;2004年21期

9 魏玲,张文修;基于支持向量机集成的分类[J];计算机工程;2004年13期

10 沈翠华,邓乃扬,肖瑞彦;基于支持向量机的个人信用评估[J];计算机工程与应用;2004年23期

中国重要会议论文全文数据库 前10条

1 余乐安;姚潇;;基于中心化支持向量机的信用风险评估模型[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年

2 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年

3 史晓涛;刘建丽;骆玉荣;;一种抗噪音的支持向量机学习方法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

4 何琴淑;刘信恩;肖世富;;基于支持向量机的系统辨识方法研究及应用[A];中国力学大会——2013论文摘要集[C];2013年

5 刘骏;;基于支持向量机方法的衢州降雪模型[A];第五届长三角气象科技论坛论文集[C];2008年

6 王婷;胡秀珍;;基于组合向量的支持向量机方法预测膜蛋白类型[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年

7 赵晶;高隽;张旭东;谢昭;;支持向量机综述[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年

8 周星宇;王思元;;智能数学与支持向量机[A];2005年中国智能自动化会议论文集[C];2005年

9 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年

10 侯澍e,

本文编号:255487


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/255487.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6eee1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com