当前位置:主页 > 科技论文 > 自动化论文 >

在线AUC优化的线性方法研究

发布时间:2019-02-10 19:42
【摘要】:AUC是衡量分类算法性能的重要指标之一,被广泛应用于类不平衡学习、排序学习、异常检测和代价敏感学习等任务中。在线学习凭借其处理大规模数据和流数据的高效性在机器学习领域受到广泛关注。针对大数据环境下的AUC优化问题,研究者提出了诸多在线AUC优化算法。在线AUC优化的难点在于AUC优化的损失函数由来自不同类别的两个样本构成,这使得依赖于损失函数之和的目标函数与训练样本数二次相关,不能直接使用传统在线学习方法求解。当前的在线AUC优化算法聚焦于通过在求解过程中避免直接计算所有的损失函数,从而减少问题规模,实现在线AUC优化,但其复杂度仍然高于同类型的传统在线学习算法。如何能使AUC优化的目标函数不再和训练样本数二次相关,仅和训练样本数线性相关,是一个值得研究的问题。基于最小二乘损失函数,本文提出了一种AUC优化的新目标函数,该目标函数仅与训练样本数线性相关。理论分析表明,最小化该目标函数等价于最小化由L2正则化项和最小二乘损失函数组成的AUC优化的目标函数。基于该目标函数,本文提出了在线AUC优化的线性方法(LOAM)。并根据不同优化求解策略,提出两种算法:一是使用增量式最小二乘法(ILSC)进行优化求解的LOAMILSC算法;另一种是使用AdaGrad方法进行优化求解的LOAMAda算法。其中,LOAMILSC算法的空间复杂度和每次迭代的复杂度与ILSC算法相同,LOAMAda算法的空间复杂度和每次迭代的时间复杂度与传统在线梯度下降算法相同;同时,这两种算法都不需要存储任何历史样本,仅需扫描数据集一遍。实验结果表明,与原有方法相比,LOAMILSC算法获得了更优的AUC性能,而对于实时或高维学习任务,LOAMAda算法则更加高效。
[Abstract]:AUC is one of the most important indexes to measure the performance of classification algorithms. It is widely used in class imbalance learning, ranking learning, anomaly detection and cost sensitive learning. Online learning has attracted much attention in the field of machine learning because of its high efficiency in dealing with large-scale data and stream data. Aiming at the problem of AUC optimization in big data environment, researchers put forward many online AUC optimization algorithms. The difficulty of online AUC optimization is that the loss function of AUC optimization is composed of two samples from different classes, which makes the objective function which depends on the sum of loss functions to be quadratic related to the number of training samples. Traditional online learning methods can not be directly used to solve the problem. The current online AUC optimization algorithm focuses on reducing the size of the problem and realizing online AUC optimization by avoiding the direct calculation of all loss functions in the process of solving the problem, but its complexity is still higher than that of the traditional online learning algorithm of the same type. How to make the objective function of AUC optimization no longer have quadratic correlation with the number of training samples, but only linearly with the number of training samples, is a problem worth studying. Based on the least square loss function, a new objective function for AUC optimization is proposed in this paper. The objective function is only linearly related to the number of training samples. Theoretical analysis shows that minimizing the objective function is equivalent to minimizing the objective function of AUC optimization consisting of L2 regularization term and least square loss function. Based on the objective function, a linear method for on-line AUC optimization, (LOAM)., is presented in this paper. According to different optimization strategies, two algorithms are proposed: one is the LOAMILSC algorithm which uses the incremental least square method (ILSC) to optimize the solution; the other is the LOAMAda algorithm which uses the AdaGrad method to solve the optimization problem. The space complexity and the complexity of each iteration of LOAMILSC algorithm are the same as those of ILSC algorithm, and the space complexity and time complexity of each iteration of LOAMAda algorithm are the same as those of traditional on-line gradient descent algorithm. At the same time, the two algorithms need not store any historical samples, but only scan the data set once. Experimental results show that the LOAMILSC algorithm achieves better AUC performance than the original method, while the LOAMAda algorithm is more efficient for real-time or high-dimensional learning tasks.
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 张晓萍,崔敏芳;信息处理子系统识别单元I损失函数的确定[J];火力与指挥控制;1990年01期

2 王晓陵;;损失函数对反馈参数的二阶导数快速计算法[J];自动化技术与应用;1987年03期

3 潘志斌,周德强,李落清;分类中软间隔损失函数的V_γ维[J];湖北大学学报(自然科学版);2004年02期

4 李小光;;混合损失函数支持向量回归机的性能研究[J];西北大学学报(自然科学版);2011年02期

5 张宁;线性时常系统损失函数递推计算[J];舰船科学技术;1981年01期

6 陈翰馥,郭雷;随机适应LQ问题中的极限过渡(英文)[J];控制理论与应用;1989年01期

7 夏润海,王开颜;机器学习与智能决策支持系统[J];潍坊学院学报;2003年02期

8 张明玉,倪志伟;基于机器学习的智能决策支持系统[J];淮南师范学院学报;2005年03期

9 杨凌霄;武建平;;机器学习方法在人脸检测中的应用[J];计算机与数字工程;2008年03期

10 ;第十一届中国机器学习会议[J];智能系统学报;2008年02期

相关会议论文 前10条

1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年

2 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年

3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年

5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年

6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年

7 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年

9 张月义;宋明顺;韩之俊;;动态特性质量损失函数研究[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年

10 李静茹;钱伟民;;ε-不敏感损失函数下的Bayes估计方法[A];中国现场统计研究会第12届学术年会论文集[C];2005年

相关重要报纸文章 前10条

1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年

2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年

3 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年

4 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年

5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年

6 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年

7 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年

8 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年

9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年

10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年

相关博士学位论文 前10条

1 欧阳林寒;模型不确定下的稳健参数设计研究[D];南京理工大学;2016年

2 张月义;质量损失函数与测量系统校准研究[D];南京理工大学;2010年

3 黄维忠;相依风险及平衡损失函数下的信度理论[D];华东师范大学;2013年

4 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年

5 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年

6 Maxim Pecionchin;[D];对外经济贸易大学;2016年

7 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年

8 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年

9 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年

10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 翟艳祥;在线AUC优化的线性方法研究[D];郑州大学;2017年

2 薛娇;Entropy损失函数下若干分布参数的Bayes估计及其性质[D];兰州交通大学;2015年

3 揣瑞;平衡损失函数下Stein估计的优良性研究[D];吉林大学;2016年

4 黄婷婷;基于损失函数的最优过程均值优化设计的研究[D];南京理工大学;2016年

5 王旭;Mlinex损失函数下基于截尾数据指数分布参数的估计[D];吉林大学;2017年

6 孔亮;相依风险及非对称损失下的信度理论[D];吉林大学;2017年

7 徐万奎;加权损失函数下的信度保费[D];新疆大学;2011年

8 李春飞;两类损失函数的质量水平与参数设计[D];东北师范大学;2007年

9 苏美红;机器学习中损失函数问题研究[D];西北大学;2015年

10 邓海松;一类稳健损失函数的构造与应用及多元Laplace分布[D];南京理工大学;2006年



本文编号:2419481

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2419481.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7e85***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com