当前位置:主页 > 科技论文 > 数学论文 >

基于主题模型的大规模文本集建模问题研究

发布时间:2017-09-22 06:33

  本文关键词:基于主题模型的大规模文本集建模问题研究


  更多相关文章: 主题模型 隐狄利克雷分配 贝叶斯变分方法 随机变分方法 带动量的随机梯度法 自适应步长 在线学习


【摘要】:主题模型是一种概率统计方法,常被用来分析文本数据集的隐藏结构。近年来,主题模型已成为一种流行的分析数据的方法,它们可以用于分析文本,图像,视频等等类型的数据。然而,在当今这个数据爆炸的时代,它们面临着大数据带来的严峻挑战。对大规模数据集进行建模已成为机器学习领域的一个重要的方向。为了满足大数据时代对机器学习算法的需求,Hoffman等人提出了具有代表性的随机变分方法(stochastic variational inference, SVI)。隐狄利克雷分配(latent Dirichlet Allocation, LDA)被认为是主题模型的基础,因此,Hoffman等人将SVI应用于LDA之上,近似计算LDA的后验概率分布。 针对LDA的SVI算法(online LDA)已被成功用于处理许多大规模数据集。每一次迭代,算法使用数据集中的一个子集的数据计算得到随机自然梯度(stochastic natural gradient),并使用它优化LDA的全局变分参数。然而,文本数据集的复杂性限制了online LDA的性能。算法存在两个主要问题。第一,子集中的唯一词的数量通常比文本集词典中唯一词的数量要少得到,使得算法计算得到的随机梯度噪声非常大。第二,不同的唯一词它们在文本集中出现的频率是不同的,导致与不同唯一词相关的参数的收敛速度不同。 为了解决第一个问题,我们提出了一种更好的算法,称为动量online LDA算法(Momentum online LDA, MOLDA)。MOLDA在更新全局变分参数时不仅使用随机梯度,同时还使用动量。动量是过去迭代中计算得到随机梯度的加权和,它非常容易计算。因此,,MOLDA是我们能够有效地利用过去样本的信息平滑随机梯度的噪声。 针对第二个问题,我们为online LDA设计了一个针对每个参数的自适应的步长(per-parameter adaptive learning rate, PPAR)。PPAR使用参数二阶导数控制每个参数的步长的减小。步长可以根据采样得到的样本数据和参数进行自适应地调整。因此,PPAR可以帮助online LDA找到一个更好的收敛轨迹,收敛至一个更好的解。 为了评估我们算法的性能,我们采集了两个超大型数据集。这两个数据集中都包含了上百万个文档。对于MOLDA,我们使用online LDA作为对比算法,测试算法的性能。对于PPRA,我们将它与其他三个针对online LDA的现今最好的步长算法作比较。实验结果表明,动量对算法的执行有积极的影响,MOLDA的收敛速度要快于online LDA,且它可以得到一个更好的预测分布。PPAR的性能要优于其他三个步长算法。
【关键词】:主题模型 隐狄利克雷分配 贝叶斯变分方法 随机变分方法 带动量的随机梯度法 自适应步长 在线学习
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212.1;TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 引言10-14
  • 1.1 研究背景10-11
  • 1.2 本文工作11-14
  • 第2章 背景知识14-24
  • 2.1 隐狄利克雷分配(Latent Dirichlet Allocation, LDA)14-15
  • 2.2 指示符向量与狄利克雷分布15-16
  • 2.3 针对 LDA 的变分算法16-20
  • 2.4 针对 LDA 的随机变分算法(online LDA )20-21
  • 2.5 online LDA 的收敛性21-22
  • 2.6 本章小结22-24
  • 第3章 动量 online LDA24-30
  • 3.1 概述24-25
  • 3.2 动量 online LDA(momentum online LDA, MOLDA)25-27
  • 3.3 实验27-29
  • 3.3.1 数据集27
  • 3.3.2 度量标准27-28
  • 3.3.3 实验结果28-29
  • 3.4 本章小结29-30
  • 第4章 针对每个参数的自适应步长方法30-44
  • 4.1 概述30-31
  • 4.2 针对每个参数的自适应步长31-33
  • 4.3 算法细节33-34
  • 4.4 算法收敛性分析34-35
  • 4.5 相关工作35-36
  • 4.6 实验与分析36-43
  • 4.6.1 实验设置36-37
  • 4.6.2 PPAR 参数对算法的影响37-39
  • 4.6.3 步长的变化39-40
  • 4.6.4 PPAR 与其他步长算法的比较40-43
  • 4.7 本章小结43-44
  • 第5章 总结与展望44-46
  • 5.1 工作总结44-45
  • 5.2 工作展望45-46
  • 参考文献46-49
  • 作者简介及科研成果49-50
  • 致谢50

【共引文献】

中国期刊全文数据库 前10条

1 孙显;付琨;王宏琦;;基于空间语义对象混合学习的复杂图像场景自动分类方法研究[J];电子与信息学报;2011年02期

2 董自健;宋铁成;袁创;;基于基因扰动及变分逼近技术的基因调控网络推断[J];东南大学学报(自然科学版);2013年06期

3 潘琪;张海;;加权网络结构分析[J];纯粹数学与应用数学;2013年06期

4 蒋卓人;陈燕;高良才;汤帜;刘晓钟;;一种结合有监督学习的动态主题模型[J];北京大学学报(自然科学版);2015年02期

5 廖士中;陈亚瑞;;高斯均值场变分推理的收敛性和精确性[J];计算机研究与发展;2008年S1期

6 焦斌亮;陈爽;;基于PCA算法的人脸识别[J];计算机工程与应用;2011年18期

7 刘启元;张聪;沈一栋;;信度网近似推理算法(下)[J];计算机科学;2001年02期

8 陈亚瑞;廖士中;;Ising图模型概率推理的参数化复杂性[J];计算机科学;2010年10期

9 张凯;沈宏;;基于贝叶斯理论的机械故障源盲分离[J];机械研究与应用;2009年03期

10 肖秦琨;高晓光;;进化算法与动态贝叶斯网络混合优化研究[J];模式识别与人工智能;2006年03期

中国重要会议论文全文数据库 前1条

1 李文波;孙乐;;一种LDA模型的高效并行求解算法[A];第六届全国信息检索学术会议论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年

2 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年

3 陈亚瑞;基于消息传播的图模型近似变分推理[D];天津大学;2010年

4 张翔;视频序列中的目标分割[D];上海交通大学;2009年

5 谷小婧;基于图像分析的自然彩色夜视成像方法研究[D];东华大学;2011年

6 姚拓中;结合主动学习的视觉场景理解[D];浙江大学;2011年

7 金卓军;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D];浙江大学;2011年

8 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年

9 王慧琼;计算机视觉中的二分光问题研究[D];浙江大学;2008年

10 潘晴;生物视觉模型在自动目标识别技术中的应用研究[D];华中科技大学;2007年

中国硕士学位论文全文数据库 前10条

1 薛维;基于非对称先验的作者主题模型[D];浙江大学;2011年

2 马秀敏;中国典型管理期刊文献主题发现与演化分析[D];大连理工大学;2011年

3 庞涛;运动模糊图像的模糊核估计及图像恢复[D];西南大学;2011年

4 王辉登;基于振铃抑制的运动模糊图像复原方法研究[D];南京理工大学;2011年

5 张礼;寻找差异基因的概率方法研究[D];南京航空航天大学;2010年

6 殷霞;GMRF模型近似变分消息传播方法[D];天津大学;2010年

7 饶e

本文编号:899327


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/899327.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户887f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com