使用Nesterov步长策略投影次梯度方法的个体收敛性
本文关键词: 机器学习 非光滑损失函数问题 投影次梯度方法 Nesterov步长策略 个体收敛速率 稀疏学习 出处:《计算机学报》2018年01期 论文类型:期刊论文
【摘要】:很多机器学习问题都可以最终转换为优化问题来进行求解,凸优化算法已经被成功用于各种机器学习优化问题中,而在优化算法的研究中是否能获得最优的收敛速率是一个最基本问题.此外,稀疏性是稀疏学习问题中关注的另一个目标.目前,人们已经提出了大量的随机优化方法求解大规模机器学习优化问题,但大部分的研究只是针对平均输出方式获得了最优收敛速率.个体输出方式显然比平均方式的输出具有更好的稀疏性,但使个体收敛速率获得最优具有一定的难度,人们已经将强凸情形下的最优个体收敛性作为公开问题进行广泛研究.对于光滑目标函数的优化问题,著名学者Nesterov提出了一种步长策略,使得梯度方法的收敛速率获得了数量级形式的加速,并且获得了最优的个体收敛速率.目前,Nesterov加速算法已经应用于各种具有光滑损失函数机器学习优化问题中,研究者基于该加速策略提出了大量的随机优化算法.能否将这种技巧推广至非光滑情形获得最优的个体收敛速率显然是有意义的问题.文中考虑在非光滑优化算法中引入这种步长策略.特别地,我们聚焦经典的一阶梯度方法,提出了一种嵌入加速算法步长策略的投影次梯度算法,证明了这种算法在求解非光滑损失函数学习问题时具有最优的个体收敛速率.这是比标准投影次梯度方法只有在平均输出方式下才具有最优收敛速率更强的结论,也是一阶梯度方法在个体最优收敛速率方面比较接近于大家期待的研究成果.与平均方式输出以及线性插值的投影次梯度方法相比,该文所提方法的梯度运算在插值策略之后,因此在求解l1范数约束的hinge损失函数学习问题时具有更好的稀疏性.人工数据集上的实验验证了所提方法的正确性,基准数据集上验证了该方法在保持稀疏性方面具有良好的性能.
[Abstract]:Many machine learning problems can be transformed into optimization problems to solve them. Convex optimization algorithms have been successfully used in various machine learning optimization problems. Whether the optimal convergence rate can be obtained in the study of optimization algorithm is a basic problem. In addition, sparsity is another objective of sparse learning problem. A large number of stochastic optimization methods have been proposed to solve large-scale machine learning optimization problems. But most of the studies only get the optimal convergence rate for the average output mode. The individual output mode is obviously more sparse than the average output mode, but it is difficult to obtain the optimal individual convergence rate. In the case of strong convexity, the optimal individual convergence is widely studied as an open problem. For the optimization of smooth objective functions, Nesterov, a famous scholar, has proposed a step size strategy. The convergence rate of the gradient method is accelerated in the order of magnitude, and the optimal individual convergence rate is obtained. At present, the Nesterov acceleration algorithm has been applied to various machine learning optimization problems with smooth loss functions. Based on this acceleration strategy, researchers have proposed a large number of stochastic optimization algorithms. It is significant to extend this technique to the non-smooth case to obtain the optimal individual convergence rate. In this paper, we consider the non-smooth optimization algorithm. The introduction of this step strategy. In particular, We focus on the classical first-order gradient method and propose a projection subgradient algorithm embedded in the step size strategy of the acceleration algorithm. It is proved that this algorithm has the optimal individual convergence rate when solving the nonsmooth loss function learning problem. This conclusion is stronger than that of the standard projection subgradient method only in the average output mode. The first order gradient method is also close to the expected research results in terms of individual optimal convergence rate. Compared with the average output method and the projection subgradient method of linear interpolation, the gradient operation of the proposed method follows the interpolation strategy. Therefore, the hinge loss function learning problem with l 1 norm constraint has better sparseness. Experiments on artificial data sets verify the correctness of the proposed method. It is verified on the datum data set that this method has good performance in keeping sparsity.
【作者单位】: 中国人民解放军陆军工程大学指挥信息系统学院;中国人民解放军陆军炮兵防空兵学院十一系;
【基金】:国家自然科学基金(61273296,61673394)资助~~
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 夏润海,王开颜;机器学习与智能决策支持系统[J];潍坊学院学报;2003年02期
2 张明玉,倪志伟;基于机器学习的智能决策支持系统[J];淮南师范学院学报;2005年03期
3 杨凌霄;武建平;;机器学习方法在人脸检测中的应用[J];计算机与数字工程;2008年03期
4 ;第十一届中国机器学习会议[J];智能系统学报;2008年02期
5 ;第14届中国机器学习会议[J];智能系统学报;2012年06期
6 费宗铭;吕建;王志坚;陈道蓄;徐家福;;机器学习[J];计算机科学;1991年01期
7 赵沁平;魏华;王军玲;;机器学习技术与机器学习系统[J];计算机科学;1993年05期
8 姚敏;机器学习及其发展方向[J];计算机时代;1994年04期
9 ;第31届机器学习国际会议(英文)[J];智能系统学报;2014年01期
10 黄海滨;机器学习及其主要策略[J];河池师范高等专科学校学报(自然科学版);2000年04期
相关会议论文 前8条
1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
3 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
4 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
5 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
7 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
8 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
相关重要报纸文章 前3条
1 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
2 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
3 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
相关博士学位论文 前10条
1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年
2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年
3 杜宇;基于深度机器学习的体态与手势感知计算关键技术研究[D];浙江大学;2017年
4 钟锦红;群智学习若干问题研究[D];中国科学技术大学;2017年
5 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
6 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
7 胡巍;面向格结构的机器学习[D];上海交通大学;2009年
8 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年
9 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
10 梁锡军;稀疏优化在机器学习中的若干应用[D];大连理工大学;2013年
相关硕士学位论文 前10条
1 陈召阳;基于机器学习的改性麦槽吸附重金属构效关系模型研究[D];江西理工大学;2014年
2 王成;基于半监督机器学习的文本情感分析技术[D];南京理工大学;2015年
3 孙科;基于Spark的机器学习应用框架研究与实现[D];上海交通大学;2015年
4 刘江龙;基于机器学习的射频指纹定位方法研究[D];电子科技大学;2015年
5 张蕾;基于机器学习的网络舆情采集技术研究与设计[D];电子科技大学;2014年
6 裴松年;基于机器学习的分类算法研究[D];中北大学;2016年
7 李红;基于机器学习的中医药配方评估研究[D];南京大学;2016年
8 刘会河;一种基于SVM的降维方法在三类ROC分析中的应用[D];广东工业大学;2016年
9 孟晓龙;基于机器学习的推荐技术研究[D];吉林大学;2016年
10 孙健琳;基于机器学习的宿舍通道管理系统设计[D];山东大学;2016年
,本文编号:1542704
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1542704.html