在线学习算法研究与应用
本文选题:在线学习 切入点:时间序列 出处:《浙江大学》2017年博士论文 论文类型:学位论文
【摘要】:随着信息技术的飞速发展和互联网应用的日益普及,数据产生的速度越来越快。传统的以批量数据处理为特点的离线学习算法无法适应大数据场景下流式数据的特点。在线学习算法能够持续不断地接受数据,动态实时地更新模型,适合大规模和流式数据的处理受到了研究者的高度重视,是当前机器学习领域的热点问题之一。在线学习算法的研究主要包括三个方面:(1)在线学习算法的理论分析;(2)在线学习算法应用在不同的机器学习任务中;(3)在线学习算法的收敛速率。本文围绕上述问题,从理论分析到具体应用对在线学习算法进行了比较系统的研究,一方面对已有算法的不足进行改进,一方面对若干未解问题提出新的解决方案。具体而言,本文的创新点如下:1.ADMM(Alternating Direction Method of Multipliers)是一个通用的优化框架,广泛应用于分布式机器学习的各种任务中。为了加速在线ADMM算法,将传统的在线ADMM算法的遗憾度理论分析从基于轮次的分析拓展到基于梯度变化的分析。论文针对两种类型的在线ADMM学习算法(FTRL-ADMM和PGD-ADMM),分别提出了改进的在线ADMM算法,并给出基于梯度变化的遗憾度分析,证明了提出的算法比已有的算法具有更紧凑的遗憾度上界。2.ARIMA 模型(Autoregressive integrated moving average)是时间序列预测中广泛使用的线性模型。然而,现有的关于ARIMA模型的学习算法都是离线学习算法且噪音项必须满足严格的假设条件,这严重阻碍了 ARIMA模型的通用性以及解决海量时间序列预测问题。因此,本文松弛了关于ARIMA模型噪音项的假设并提出了 ARIMA模型的在线学习算法。通过理论分析证明了提出的ARIMA模型在线学习算法能够趋近于最优的ARIMA模型离线学习算法。在人工数据集和真实数据集上进行一系列的验证,实验结果证明了所提出的算法的效率和有效性。3.近年来,通过在线学习求解非负矩阵分解任务的NN-PA算法在推荐系统的应用上取得了巨大的成功。为了加速NN-PA算法的收敛速度,论文提出了 NN-APA算法,利用二阶的梯度信息进行每轮更新,利用“专家学习”技术实现在线学习任务的参数自动调整。本文给出了新算法的理论分析,并证明了它比NN-PA算法收敛更快。在一系列关于推荐系统的数据集上进行了深度地实验分析,进一步验证了新算法的效率和效力。4.协同主题回归(Collaborative Topic Regression,简称CTR)模型结合了概率矩阵分解(probabilistic matrix factorization 简称 PMF)模型以及主题模型(topic modeling,例如LDA),利用文本信息提升推荐的准确率。尽管该模型在推荐领域取得了巨大的成功,然而现有的CTR模型推导算法bdi-CTR存在严重的缺陷。首先,bdi-CTR算法是离线算法,无法适应流式的数据或者现实中的大数据场景;其次,bdi-CTR算法首先用LDA计算产品相关的主题表达,然后把该结果推送到PMF求解过程中,它忽略了 PMF对LDA的作用,也就是说,该算法并没有考虑推荐预测信息对LDA推导主题模型的作用。因此本文提出了一个在线联合推导算法obi-CTR。提出的算法不但可以处理流式数据,还能利用PMF模型的结果来强化LDA模型的推导,两个模型互相曾增强从而达到联合优化的目的。实验结果显示,obi-CTR算法不但能高效地处理流式数据以及海量数据,还能同时增强主题模型的主题表达以及推荐系统的预测性能。
[Abstract]:With the rapid development of information technology and the increasing popularity of Internet applications, data generated faster and faster. In the traditional batch data processing for the characteristics of the off-line learning algorithm can not adapt to the characteristics of big data scene downflow data. Online learning algorithm can continuously receive data, real-time dynamically update the model for large scale and flow cytometry data has been highly valued by the researchers, is currently one of the hot issues in the field of machine learning. Online learning algorithm mainly includes three aspects: (1) online learning algorithm theory analysis; (2) online learning algorithm learning tasks in different machines; (3) online learning the convergence rate of the algorithm. Based on the above problems, from the theoretical analysis to the specific application of online learning algorithm is studied, a lack of existing algorithms for Improved, puts forward a new solution to some unsolved problems. Specifically, the innovations of this paper are as follows: 1.ADMM (Alternating Direction Method of Multipliers) is a general optimization framework, various tasks are widely used in distributed machine learning. In order to speed up the online ADMM algorithm, the traditional ADMM algorithm online regret the degree of theoretical analysis from the round analysis to based on gradient analysis of change. According to the two types of online ADMM learning algorithm (FTRL-ADMM and PGD-ADMM), were proposed to improve the online ADMM algorithm, and gives the gradient of regret degree analysis based on the proposed algorithm, proved to have more compact upper bound of regret the.2.ARIMA model is better than the existing algorithm (Autoregressive integrated moving average) is a widely used linear model of time series prediction. However, some are about ARIMA Model learning algorithm are off-line learning algorithm and the noise term must meet the strict assumptions, which seriously hindered the universality of the ARIMA model and solve massive time series prediction. Therefore, this paper relaxes on the ARIMA model of the noise hypothesis and put forward the ARIMA model of online learning algorithm. It is proved that the offline a learning algorithm of ARIMA model of online learning algorithm of ARIMA model is proposed to approach the optimal. To verify a series of artificial and real data sets. The experimental results prove that the proposed algorithm's efficiency and effectiveness of.3. in recent years, through the online learning NN-PA algorithm for solving non negative matrix factorization task has made great the successful application in recommendation system. In order to accelerate the convergence speed of NN-PA algorithm, this paper proposes the NN-APA algorithm, using the gradient information into the two order For each round of updates, automatically adjust the parameters by using "expert learning" technology to achieve online learning tasks. This paper gives the analysis of the new algorithm theory, and prove that it converges faster than NN-PA. In a series of recommendation system data sets were analyzed in depth experiments, further verify the efficiency and effectiveness of the new.4. Synergetic Algorithm (Collaborative Topic Regression, the theme of regression referred to as CTR) model combines probabilistic matrix factorization (probabilistic matrix factorization PMF (topic) model and subject model modeling, such as LDA), use to enhance the accuracy of recommendation text information. Although the model in the recommended field has achieved great success, however, the bdi-CTR CTR model there are serious defects in the existing algorithms. Firstly, bdi-CTR algorithm is offline algorithm, unable to adapt to the large flow of data or data scenes in reality; Secondly, the calculation expression of the theme product related bdi-CTR algorithm with LDA at first, then put the result onto the PMF solving process, it ignores the effect of PMF on LDA, that is to say, the algorithm does not consider the effect of recommended predictive information for derivation of the LDA topic model. Therefore, this paper proposes an online joint inference algorithm the obi-CTR. algorithm can not only deal with streaming data, are also using the results of the PMF model to strengthen the LDA model, two models with each other so as to achieve the purpose of Ceng Zengqiang joint optimization. Experimental results show that the obi-CTR algorithm not only can efficiently handle the data stream and massive data, but also enhance the performance prediction model to express the theme the theme and the recommendation system.
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 程彩娟;“八后问题”的算法与程序设计[J];天津职业技术师范学院学报;1991年02期
2 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期
3 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期
4 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期
5 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期
6 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期
7 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期
8 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期
9 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期
10 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期
相关会议论文 前10条
1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年
5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相关重要报纸文章 前10条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
2 农行浙江东阳支行 吴新国 周龙飞;银行如何创建学习型组织[N];上海金融报;2003年
3 西北师范大学 李瑾瑜;校长:如何引领和促进教师学习[N];中国教育报;2008年
4 永寿县店头中学 刘俊锋;大力提倡合作学习 全面促进有效教学[N];咸阳日报;2009年
5 本报评论员;要在真学习上下功夫[N];酒泉日报;2009年
6 本报记者 李天然;学习应该是一种终身行为[N];大连日报;2010年
7 刘继芳;浅议建设学习型党组织中的“学习”内涵[N];伊犁日报(汉);2010年
8 哈尔滨市第五医院 蒙硕;浅谈医院创建学习型党组织[N];黑龙江日报;2010年
9 翟爱霞;浅谈如何深入推进学习型党组织建设[N];太行日报;2011年
10 李振 上海交通大学国际与公共事务学院;制度变迁中的制度学习[N];中国社会科学报;2012年
相关博士学位论文 前10条
1 刘成昊;在线学习算法研究与应用[D];浙江大学;2017年
2 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
3 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
4 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
5 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
6 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年
7 雷雨;面向考试时间表问题的启发式进化算法研究[D];西安电子科技大学;2015年
8 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年
9 周雷;基于图结构的目标检测与分割算法研究[D];上海交通大学;2014年
10 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
相关硕士学位论文 前10条
1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年
2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年
3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年
4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年
5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年
6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年
7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年
8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年
9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年
10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年
,本文编号:1570396
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1570396.html