基于随机变分的在线监督主题模型与并行化实现
本文选题:监督主题模型 切入点:MapReduce 出处:《吉林大学》2017年硕士论文 论文类型:学位论文
【摘要】:在机器学习研究领域中,主题模型(Topic Models)和监督主题模型(Supervised Topic Models)是对自然语言进行分析的通用模型。此类模型能够通过概率分布揭示语言文字内部的结构特征,并将其以“主题结构”以及“标签”的形式可视化。监督主题模型在现实中的文本分析、舆论监控以及电子商务等方面有着广泛的应用,因而成为机器学习的研究热点。然而,作为一种常用的监督主题模型,s LDA模型采用了一种变分EM算法以及坐标上升算法相嵌套的学习算法。随着数据量的增加,两种迭代优化算法的叠加使s LDA的训练时间呈指数级增长。此外,s LDA的学习算法属于离线训练的算法,这种特性不适用于日常生活中实时性要求高、数据量大的应用场景,如文本分类、舆论监控等问题,所有这些问题都严重地制约了监督主题模型的发展。针对以上问题,本文主要做出如下工作:1,提出了一种高效的监督主题模型的在线学习算法。本文采用随机变分推断的思想改进s LDA的学习算法,通过黎曼空间的自然梯度能够更准确的指向极大似然的理论,在学习过程中利用自然梯度替代了s LDA学习算法中的欧式空间梯度,从而加快了算法收敛的速度。此外,采用随机优化的思想,在迭代算法的每轮迭代中随机采样训练子集用以估计全局参数的梯度,以此降低模型的计算负担,而且赋予了s LDA在线学习的能力。2,提出了一种在线监督主题模型的并行学习算法,并实现了其对多种应用场景下的支持。由于在线监督主题模型中每轮迭代所采样的文档数量会对标签预测结果造成影响,所以训练算法需要能够灵活的设置每轮采集样本的大小。本文采用流行的Map Reduce并行计算框架,对在线监督主题模型采用分布式处理,使其能够应用于大规模数据的场景。另外,本文利用Python以及Mrjob的灵活性,实现了该算法支持单机单进程、单机多进程、分布式计算以及云计算的版本,进一步扩展其应用范围。
[Abstract]:In the field of machine learning, topic models and supervised Topic models are common models for analyzing natural languages. And it is visualized in the form of "theme structure" and "label". The supervisory subject model has been widely used in text analysis, public opinion monitoring and electronic commerce in reality, so it has become a research hotspot in machine learning. As a common supervised topic model, the LDA model adopts a variational EM algorithm and a learning algorithm nested with the coordinate rise algorithm. With the increase of the amount of data, The superposition of two iterative optimization algorithms makes the training time of s LDA increase exponentially. In addition, the learning algorithm of s LDA belongs to the offline training algorithm, which is not suitable for the application of high real-time and large amount of data in daily life. Such as text classification, public opinion monitoring and so on, all of these problems have seriously restricted the development of supervisory subject models. In this paper, we propose an efficient online learning algorithm for supervised topic models by doing the following work: 1. This paper uses the idea of random variational inference to improve the learning algorithm of s LDA. Through the theory that the natural gradient of Riemannian space can point to the maximum likelihood more accurately, the natural gradient is used to replace the Euclidean space gradient in the s LDA learning algorithm in the learning process, which speeds up the convergence of the algorithm. Using the idea of stochastic optimization, the random sampling training subset is used to estimate the gradient of global parameters in each iteration of the iterative algorithm, so as to reduce the computational burden of the model. Moreover, the ability of online learning of s LDA is given. 2. A parallel learning algorithm for online supervised topic model is proposed. It also supports various application scenarios. Because the number of documents sampled per iteration in the online monitoring topic model will affect the tag prediction results. Therefore, the training algorithm needs to be able to flexibly set the size of samples collected in each round. In this paper, the popular Map Reduce parallel computing framework is adopted, and the online supervisory subject model is distributed, which can be applied to large-scale data scenarios. This paper makes use of the flexibility of Python and Mrjob to implement the algorithm to support single machine single process, single machine multi-process, distributed computing and cloud computing.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP181
【相似文献】
相关期刊论文 前10条
1 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
2 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
3 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
4 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
5 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
7 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
8 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
9 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
10 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
相关会议论文 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关博士学位论文 前4条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
相关硕士学位论文 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
,本文编号:1622777
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1622777.html