基于词性特征与语义增强的短文本主题模型研究与应用
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
图2-?1?LDA概率图模型??其中,M代表文档数,/Vm代表每篇文档中的单词数,/C代表设定的主题数,??
图2-?1?LDA概率图模型??文档数,/Vm代表每篇文档中的单词数,/C代表设定中的第n个单词,其对应的主题分配为?%^。文档下的布分别表示为&和,分别服从于参数为3和及的狄生成过程可以表示为:??rithm?3:?LDA?生成过程??于每个主题fc?e?[1,欠]:??采样对....
图2-?2?CBOW模型和Skip-gram模型??
优化设计使得Spark的计算能力提升了?1-2个数量级。??由于RDD具有丰富的表达能力,伯克利在Spark?Core的基础上衍生出了一??套能够处理不同场景的统一大数据处理平台,其生态系统组件如图2-3所示。其??中,Spark?Core是整个系统的核心组件,提供了多种编程语言....
图2-?3?Spark生态系统组件??,
CBOW?Skip-gram??图2-?2?CBOW模型和Skip-gram模型??2.3大数据相关技术??信息化时代数据量爆炸性增长,单台计算机的处理能力和I/O性能已远远不??能满足大规模数据的处理要求,于是各种大数据平台应运而生。本节主要介绍本??文使用到的分布式计算框架S....
图2-?4?HDFS系统架构??
?BBiBbMB??图2-?3?Spark生态系统组件??本文提出的模型在训练过程中涉及多轮迭代计算,而基于内存分布式计算的??Spark系统非常适用于迭代计算,中间结果直接存储在内存中。同时,构建于Spark??Core之上的MUib是一个针对大规模机器学习通用快速的计算引擎,....
本文编号:3908684
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3908684.html