基于MapReduce的并行LAD模型评论主题提取算法研究
发布时间:2017-11-23 07:01
本文关键词:基于MapReduce的并行LAD模型评论主题提取算法研究
更多相关文章: LAD模型 MapReduce 评论主题 k-均值聚类算法
【摘要】:针对传统的潜在狄利克雷分析(LDA)模型在提取评论主题时存在着计算时间长、计算效率低的问题,提出基于MapReduce架构的并行LAD模型建立方法.在文本预处理的基础上,得到文档-主题分布和主题-特征词分布,分别计算主题相似度和特征词权重,结合k-均值聚类算法,实现评论主题提取的并行化.通过Hadoop并行计算平台进行实验,结果表明,该方法在处理大规模文本时能获得接近线性的加速比,对主题模型的建立效果也有提高.
【作者单位】: 武警工程大学研究生管理大队;福州大学物理与信息工程学院;
【基金】:国家自然科学基金资助项目(61471124)
【分类号】:TP391.1
【正文快照】: 0引言主题模型是一种能够从大规模文本中发现文本潜在主题的概率模型,近年来在文本挖掘领域逐渐成为研究的热点[1].主题模型起源于潜在语义索引,它的发展经历了向量空间模型、潜在语义分析模型[2]、概率潜在语义分析模型[3]、LDA模型及LDA扩展模型的过程.主题模型可以形象地表,
本文编号:1217575
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1217575.html