基于结构化SVM的直接优化不平衡准则算法研究
本文关键词:基于结构化SVM的直接优化不平衡准则算法研究,由笔耕文化传播整理发布。
【摘要】:近年来,随着现代计算机技术的高速发展,在科学研究和社会生活等各个领域中积累了大量的数据,为各种不同应用提供了重要的支持。与此同时如何从这些数据中发现更多的有用信息也成为人们的一个迫切需求,数据挖掘和机器学习的出现很好地满足了这一需求。作为数据挖掘中的一个基本方法:分类学习已经引起广大科研工作者的关注,而二分类更是由于其广泛的应用基础成为其中的研究重点,但是在真实的应用中,很多二分类场景都是不平衡的,已有的平衡二分类算法难以直接使用,对此,近些年人们提出研究面向不平衡数据集的二分类算法,其基本思路分为面向数据的改进和面向算法的改进;而后者更是由于不需要对数据做预处理成为当前研究的重点。本文就是在此基础上,以SVM为工具,重点研究了基于结构化SVM的不平衡二分类算法,文中首先介绍了基于SVM的二分类算法以及不平衡二分类的应用背景,然后分析了不平衡二分类算法的研究现状,并在此基础上提出采用基于直接优化不平衡准则的方法来构造面向不平衡数据的改进SVM算法。不同于已有基于SVM的改进算法,本文提出将不平衡二分类问题看成一个学习分类队列的过程,并提出使用结构化SVM进行求解。本文的主要工作有:(1)针对AM,QM等不平衡评价准则,提出使用基于n-slack的结构化SVM作为算法框架,并定义了面向AM和QM的目标函数。针对目标函数的非光滑难以直接优化,提出使用割平面算法进行求解,使得算法的迭代次数为o(1/s2),其中ε为允许的错误。同时针对AM,QM算法内部“寻找最大最违约”子过程,分别设计了两个高效的算法,其时间复杂度均仅为o(mlogm)。不平衡数据集上的实验表明:所提算法不仅明显优于传统SVM算法,且相比起面向数据的改进算法也更加有效。(2)针对GTP/PR评估标准,提出一个基于1-slack结构化SVM的直接优化算法。算法首先定义了面向GTP/PR的目标函数,该目标比已有面向F1的目标函数更紧凑,针对新目标函数非光滑,提出使用基于1-slack的割平面算法进行求解,使得算法的迭代次数仅为o(1/ε),也更适合大规模的应用场景。面向大规模不平衡数据集的实验结果表明,所提算法不仅优于已有其他的改进算法,且算法的效率更加高效。
【关键词】:结构化支持向量机 不平衡二分类数据集 面向数据 面向算法 AM QM GTP/PR
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP181
【目录】:
- 摘要3-5
- Abstract5-12
- 第一章 绪论12-18
- 1.1 研究背景及意义12-13
- 1.2 国内外研究现状13-17
- 1.2.1 二分类算法的研究现状13-14
- 1.2.2 面向SVM的二分类算法研究现状14-16
- 1.2.3 面向不平衡二分类算法的研究现状16-17
- 1.3 本文的工作与安排17-18
- 第二章 基于SVM的二分类算法18-26
- 2.1 二分类算法的概述18-19
- 2.2 SVM概述19-23
- 2.2.1 SVM的基本原理19
- 2.2.2 线性SVM19-22
- 2.2.3 非线性SVM22-23
- 2.3 二分类算法的评价准则23-25
- 2.4 本章小结25-26
- 第三章 面向不平衡数据的二分类概述26-34
- 3.1 不平衡数据的来源及应用背景26
- 3.2 不平衡二分类的评估标准26-28
- 3.3 不平衡二分类的改进28-31
- 3.3.1 面向数据的改进28-29
- 3.3.2 面向算法的改进29-31
- 3.4 实验及结果分析31-33
- 3.5 本章小结33-34
- 第四章 基于结构化SVM的直接优化算法研究34-48
- 4.1 直接优化算法的基本思想34-37
- 4.2 基于结构化SVM的直接优化AM算法37-40
- 4.2.1 面向AM目标函数定义37-39
- 4.2.2 分解优化最大最违约子目标39-40
- 4.3 基于结构化SVM的直接优化QM算法40-42
- 4.3.1 面向的QM目标函数定义40-41
- 4.3.2 求解面向QM最大最违约子问题41-42
- 4.4 不平衡数据集上的实验42-47
- 4.4.1 实验数据集及比较算法42-43
- 4.4.2 实验结果及分析43-47
- 4.5 本章小结47-48
- 第五章 基于1-slack SVM的直接优化GTP/PR算法研究48-59
- 5.1 从n-slack SVM到1-slack SVM48-49
- 5.2 直接优化GTP/PR的不平衡算法49-52
- 5.2.1 GTP/PR和F1评估标准简介49-50
- 5.2.2 更紧凑的目标上界50-52
- 5.3 基于1-slack SVM的直接优化GTP/PR算法52-53
- 5.3.1 面向GTP/PR目标函数的定义52
- 5.3.2 基于1-slack的割平面算法求解最大最违约子目标52-53
- 5.4 不平衡数据集上的实验53-58
- 5.4.0 实验数据集及比较算法53-54
- 5.4.1 基于n-slack和1-slack的GTP/PR算法比较54-55
- 5.4.2 基于1-slack的GTP/PR算法和其它直接优化算法比较55-58
- 5.5 本章小结58-59
- 第六章 总结与展望59-61
- 6.1 工作总结59-60
- 6.2 未来展望60-61
- 参考文献61-67
- 致谢67-68
- 攻读硕士学位期间发表的学术论文68-69
- 攻读学术期间参加的科研项目69
【相似文献】
中国期刊全文数据库 前10条
1 王胜祥;现实、实践与理论——兼谈图书馆高位理论[J];黑龙江图书馆;1990年02期
2 王健庭;火信号的采集与相关修正[J];数据采集与处理;1987年02期
3 陈国阶;我国东西部发展不平衡与西部开发[J];科技导报;1995年07期
4 王萌;施艳艳;王海明;沈明辉;;不平衡电网电压下双馈风力发电系统强励控制[J];测控技术;2014年07期
5 漫征;;克服地区落后论的错误思想[J];新闻战线;1960年11期
6 ;来稿选题建议[J];青年研究;1999年01期
7 沈睿;;区域发展不平衡——不同地域中小企业信息化建设差距较大[J];每周电脑报;2004年08期
8 张昕竹;用电信普遍服务政策改善经济发展不平衡[J];通信世界;2001年16期
9 周耘;;试论我国年鉴发展的不平衡性[J];图书馆学研究;1987年04期
10 刘叶婷;;智慧城市应依“标”而建[J];信息化建设;2013年09期
中国重要会议论文全文数据库 前6条
1 张雨石;唐丽敏;王庸凯;陈文科;;关于中日航线集装箱运量不平衡原因的分析[A];中国航海学会——2004年度学术交流会优秀论文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的测量[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
3 沙鹏程;;关于西部民营企业可持续发展的思考[A];第十四次全国回族学研讨会论文汇编[C];2003年
4 张敦伟;丁博;;配电网三相不平衡补偿的探讨[A];2007中国电机工程学会电力系统自动化专委会供用电管理自动化学科组(分专委会)二届三次会议论文集[C];2007年
5 王仲生;王翔;;转子不平衡自愈监控系统设计[A];第七届全国信息获取与处理学术会议论文集[C];2009年
6 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 刘金松;教育最大的不公平是教育资源不平衡[N];经济观察报;2014年
2 程凯;解决不平衡还要靠市场[N];中华工商时报;2005年
3 本报见习记者 周宁;示范小城镇建设“四个不平衡”[N];经济信息时报;2013年
4 记者 张黎明;我市治堵工作进展不平衡[N];金华日报;2014年
5 本报记者 任s,
本文编号:337556
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/337556.html