大规模稀疏学习研究:优化算法及其应用
本文关键词:大规模稀疏学习研究:优化算法及其应用
更多相关文章: 大规模稀疏学习 随机优化 筛选 随机矩阵 多任务学习 基因风险因子
【摘要】:大规模稀疏学习是机器学习中的重要方法之一,在很多实际应用问题上有着广泛应用,比如,文本信息挖掘、生物信息学、图像处理、新闻推荐等等。然而,在具有海量样本和超高特征维度的大规模问题中,大规模稀疏学习模型的高效训练依然是一个非常具有挑战性的问题。因此,多年来,大规模稀疏学习一直是学术界和工业界的重要研究热点。现有的大规模稀疏学习模型训练方法,大多是基于随机复合优化算法设计的。因为其迭代过程中的在线批量转换步骤存在缺陷,所以,现有的算法不能获得真正稀疏的模型。为此,通过将新的稀疏在线批量转换步骤引入到随机优化中,我们提出了一个简单有效的随机复合优化框架以及在此框架下的三个具体算法。理论分析和实验结果显示,我们的算法不仅在稀疏学习能力方面完全优于现有算法,而且能将大概率误差界降低一个数量级。筛选是一类能够有效加速大规模稀疏学习模型训练的新兴技术,能够快速检测出与模型无关的特征或者样本并将其从模型中剔除,从而降低模型规模、提高训练效率。但是,现有的筛选算法都只单一研究特征筛选或者样本筛选,无法应用于数据量和特征数量都非常大的应用中。为此,我们提出了一个基于原问题和对偶问题解的准确估计的稀疏支持向量机静态加速训练算法,该算法能够同时筛选与模型无关的特征和样本。实验结果显示,我们的算法能够带来速度上几个数量级的提升。另外,我们注意到,随机矩阵算法在大规模数据分析中具有很高的时间效率,但尚未被引入到大规模稀疏学习模型的训练中。据此,我们创造性地将随机矩阵引入到稀疏学习中,提出了基于随机投影的加速稀疏线性回归算法。我们的算法能在取得指数收敛速度的同时,大大降低单次迭代的计算复杂度,而且我们算法的中间解的稀疏性具有理论保证。最后,在具体应用方面,由于生物数据(如人类基因数据)常常具有非常高的维度,而且其所用的稀疏学习模型比较复杂,因此,模型训练效率一直是大规模稀疏学习模型在生物信息学中应用时面临的瓶颈问题。对此,我们以阿尔茨海默病为例,提出了一种基于共享树结构的多任务特征学习的基因风险因子检测算法。这是一项能够通过同时利用特征结构信息和多任务间共享信息来提高检测性能的独特技术。我们还为该模型设计了一种基于筛选的加速训练算法。相比于现有最佳方法,我们的方法在检测基因风险因子方面具有明显优势。我们的筛选方法能在不损失任何精度的前提下将模型训练效率提高数个数量级。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
中国期刊全文数据库 前10条
1 刘波;;“算法设计与分析”教学探讨[J];高等理科教育;2007年04期
2 肖小克;陈莉;;《算法设计与分析》实践教学探讨[J];福建电脑;2009年10期
3 穆瑞辉;;计算机算法设计研究与思考[J];数字技术与应用;2012年12期
4 潘博;;构建“算法设计与分析”趣味课堂[J];科教文汇(下旬刊);2013年06期
5 王希常,杨志强;一类考场编排算法的设计[J];山东师范大学学报(自然科学版);2002年04期
6 龙腾芳,高金文;“分而治之”方法在算法设计中的应用[J];渤海大学学报(自然科学版);2004年01期
7 吕国英;;《算法设计与分析》教材建设的实施[J];计算机教育;2007年19期
8 徐子珊;;“算法设计与分析”教学中理论与技术的平衡[J];计算机教育;2008年10期
9 郑红;邵志清;符海波;;“算法设计与分析”课程教学改革初探[J];计算机教育;2008年14期
10 高尚;;“算法设计与分析”课程改革初探[J];计算机教育;2008年14期
中国重要会议论文全文数据库 前10条
1 雷咏梅;;椭圆曲线密码体制的算法设计与实现[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
2 杨盘洪;朱军祥;赵建安;杨静;;机动目标跟踪的模糊变结构交互多模算法[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年
3 徐子珊;;《算法设计与分析》课程中的工程教育[A];2005年全国理论计算机科学学术年会论文集[C];2005年
4 王辉;刘治昌;;用一种新算法设计的安全系统[A];2007年中国智能自动化会议论文集[C];2007年
5 舒辉;柳清峰;杜祝平;周蓓;;实践教学模式在本科专业课程教学中的应用[A];中国电子教育学会高教分会2010年论文集[C];2010年
6 彭小宏;阳东升;刘忠;;基于聚类算法的组织协作网设计[A];2006中国控制与决策学术年会论文集[C];2006年
7 李皓;罗熊;;云存储部署优化的进化算法设计[A];2013年中国智能自动化学术会议论文集(第三分册)[C];2013年
8 罗长政;李熙莹;王镇波;罗东华;;一种大流量交叉路口的背景提取与更新算法[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 杨利;李霖;昌月楼;阳国贵;;对称位向量及启发式并行散列连接算法[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年
10 张晋;;嵌入式电脑鼠运行算法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国重要报纸全文数据库 前1条
1 ;算法设计的策略[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 江立辉;基于干扰对齐的多用户无线传输优化方法研究[D];哈尔滨工业大学;2015年
2 史亚;多核学习算法与应用研究[D];西安电子科技大学;2015年
3 薛菲;基于蝙蝠算法的启发式智能优化研究与应用[D];北京工业大学;2016年
4 沈虎;支持干扰管理的无线并发通信协议及算法[D];国防科学技术大学;2015年
5 张卫忠;大规模稀疏学习研究:优化算法及其应用[D];浙江大学;2017年
6 谷伟哲;齐次光滑算法及其应用[D];天津大学;2010年
7 龙海侠;进化算法及其在生物信息中的应用[D];江南大学;2010年
8 谭跃;具有混沌局部搜索策略的粒子群优化算法研究[D];中南大学;2013年
9 尤海峰;求解隐式目标优化问题的交互式进化算法研究[D];中国科学技术大学;2011年
10 张常淳;基于MapReduce的大数据连接算法的设计与优化[D];中国科学技术大学;2014年
中国硕士学位论文全文数据库 前10条
1 李欣园;基于选择偏好的组合聚类算法研究与实现[D];内蒙古大学;2015年
2 杨潇;界约束非线性最小二乘问题的无导数算法[D];上海交通大学;2015年
3 王晓璐;基于Zynq的LS-SVM算法加速器设计[D];哈尔滨工业大学;2015年
4 楼磊磊;医疗保险数据异常行为检测算法和系统[D];浙江大学;2015年
5 齐海龙;基于改进人工蜂群算法的非线性系统辨识方法研究[D];北京化工大学;2015年
6 蔡平梅;结构化稀疏信号的恢复算法研究[D];上海大学;2015年
7 赵晨阳;基于蚁群算法的高阶图匹配方法研究[D];西安电子科技大学;2014年
8 苟清松;多目标粒子滤波检测前跟踪算法研究[D];电子科技大学;2015年
9 李枝勇;蝙蝠算法及其在函数优化中的应用研究[D];上海理工大学;2013年
10 李莲;基于蜂群和粗糙集的聚类算法研究[D];长沙理工大学;2014年
,本文编号:1279104
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1279104.html