机器学习中的一阶优化算法收敛性研究
发布时间:2025-02-11 17:40
由于具有对目标函数的假设较弱,收敛速度快和易于实现等特点,一阶优化算法被广泛应用于求解机器学习模型参数。然而传统的一阶优化算法在实现时会遇到各种各样的问题。一方面,随着数据规模的爆发式增长和深度神经网络等机器学习模型中参数规模不断增加,传统的确定性数值优化算法有计算量过大的问题。另一方面,数值优化领域中讨论的一阶算法分析往往基于最坏计算复杂度。由于实际当中最坏情况往往不会出现,实际中传统的随机梯度下降等方法在求解过程中可能浪费大量的迭代。为此,机器学习领域的研究者们提出了ADAGRAD等针对凸问题的随机自适应算法,这些方法通过利用随机梯度的历史信息来自适应地更新步长,在实际应用中通常有更好的性能。但是,目前大量的机器学习任务(如深度神经网络)的目标函数为非凸函数,在非凸情况下大部分上述算法在理论层面尚缺乏收敛性保证。综上,研究实用、收敛速度更快的优化算法是机器学习理论中的一个重要挑战。为此,本文重点研究能同时提升理论收敛速度和实际表现的一阶优化算法,具体包括四个方面:1)研究了 KL不等式在非凸矩阵秩最小化问题上的应用,证明了当目标函数满足KL性质时关于奇异值的非凸规范化项可被传统的近邻...
【文章页数】:137 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 基本问题描述
1.2 本文贡献
第2章 背景介绍
2.1 基本性质和标记定义
2.1.1 计算复杂度和收敛速度
2.1.2 标记定义
2.2 相关工作
2.2.1 误差界和Kurdyka-Lojasiewicz性质
2.2.2 随机梯度下降法和自适应算法简介
2.2.3 非凸优化算法简介
2.2.4 方差减小的随机一阶算法
第3章 基于迭代阈值收缩的非凸矩阵秩最小化算法
3.1 矩阵秩最小化问题和非凸规范化项
3.2 重加权的非凸奇异值规范化项收敛结果分析
3.3 多个矩阵的秩最小化问题
3.4 实际实现中的问题和解决方案
3.5 矩阵补全问题中的算法验证
3.5.1 人造数据集
3.5.2 图像数据集
3.5.3 多个域的推荐问题
第4章 SADAGRAD:强自适应的随机梯度算法
4.1 二阶增长条件下的强自适应的随机次梯度算法
4.2 SADAGRAD算法基于近邻算法的变种
4.3 实际应用中的SADAGRAD算法变种
4.4 SADAGRAD算法在满足局部误差界假设下的扩展
4.5 实验验证
第5章 非凸优化中统一的阶段化学习方法框架
5.1 阶段化优化算法框架
5.2 具体的阶段化优化算法
5.2.1 阶段化的随机梯度下降法
5.2.2 阶段化的动量随机梯度法
5.2.3 阶段化的自适应算法
5.3 实验验证
第6章 Stagewise-Katyusha:阶段化的加速的方差减小随机梯度下降法
6.1 Stagewise-Katyusha算法和假设
6.2 收敛性分析
第7章 总结
参考文献
附录A 第3章证明
A.1 定理3.6证明
A.2 引理3.7证明
A.3 定理3.9证明
附录B 第4章证明
B.1 命题4.1证明
B.2 定理4.2证明
B.3 定理4.4证明
B.4 定理4.5证明
B.5 定理4.7证明
B.6 定理4.8证明
附录C 第5章证明
C.1 定理5.3证明
C.2 定理5.5证明
C.3 定理5.7证明
C.4 引理5.4证明
C.5 引理5.6证明
致谢
在读期间发表的学术论文与取得的研究成果
本文编号:4033617
【文章页数】:137 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 基本问题描述
1.2 本文贡献
第2章 背景介绍
2.1 基本性质和标记定义
2.1.1 计算复杂度和收敛速度
2.1.2 标记定义
2.2 相关工作
2.2.1 误差界和Kurdyka-Lojasiewicz性质
2.2.2 随机梯度下降法和自适应算法简介
2.2.3 非凸优化算法简介
2.2.4 方差减小的随机一阶算法
第3章 基于迭代阈值收缩的非凸矩阵秩最小化算法
3.1 矩阵秩最小化问题和非凸规范化项
3.2 重加权的非凸奇异值规范化项收敛结果分析
3.3 多个矩阵的秩最小化问题
3.4 实际实现中的问题和解决方案
3.5 矩阵补全问题中的算法验证
3.5.1 人造数据集
3.5.2 图像数据集
3.5.3 多个域的推荐问题
第4章 SADAGRAD:强自适应的随机梯度算法
4.1 二阶增长条件下的强自适应的随机次梯度算法
4.2 SADAGRAD算法基于近邻算法的变种
4.3 实际应用中的SADAGRAD算法变种
4.4 SADAGRAD算法在满足局部误差界假设下的扩展
4.5 实验验证
第5章 非凸优化中统一的阶段化学习方法框架
5.1 阶段化优化算法框架
5.2 具体的阶段化优化算法
5.2.1 阶段化的随机梯度下降法
5.2.2 阶段化的动量随机梯度法
5.2.3 阶段化的自适应算法
5.3 实验验证
第6章 Stagewise-Katyusha:阶段化的加速的方差减小随机梯度下降法
6.1 Stagewise-Katyusha算法和假设
6.2 收敛性分析
第7章 总结
参考文献
附录A 第3章证明
A.1 定理3.6证明
A.2 引理3.7证明
A.3 定理3.9证明
附录B 第4章证明
B.1 命题4.1证明
B.2 定理4.2证明
B.3 定理4.4证明
B.4 定理4.5证明
B.5 定理4.7证明
B.6 定理4.8证明
附录C 第5章证明
C.1 定理5.3证明
C.2 定理5.5证明
C.3 定理5.7证明
C.4 引理5.4证明
C.5 引理5.6证明
致谢
在读期间发表的学术论文与取得的研究成果
本文编号:4033617
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4033617.html