当前位置:主页 > 科技论文 > 自动化论文 >

基于概率主题模型和神经网络的Web服务聚类

发布时间:2021-01-21 08:54
  随着Web2.0技术的不断发展,Web服务数量越来越多,将服务进行聚类是一种有效提高服务发现的手段。本文以Web服务为研究对象,基于Web服务的描述文档,采用机器学习和人工神经网络中的相关模型、算法与技术,针对“如何精准的对Web服务进行聚类”的问题进行研究。本文的主要工作分为以下三个部分:(1)本文提出一种基于Word2vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用Word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类。在真实数据集上进行实验,结果表明:与TFIDF-K、LDA、WT-LDA、LDA-K等服务聚类方法相比,本方法在F值上分别有419.74%、20.11%、15.60%、27.80%的提升。进而,基于扩充后的Web服务描述文档,利用Word2vec和LDA主题模型进行服务聚类的方法,能够有效提高Web服务聚类的精度。(2)本文提出了一种基于HDP和SOM神经网络的... 

【文章来源】:湖南科技大学湖南省

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于概率主题模型和神经网络的Web服务聚类


HDP模型图

模型图,模型图,主题,文档


第二章基础理论概述-8-图2.1LDA模型图Fig.2.1PlatenotationofLDAmodel2.2.3HDP主题模型主题建模是从文档中抽取出信息特征的一种方法,它能够将文本中隐含的主题信息抽取出来。隐含狄利克雷分布(LDA)是一种典型的主题模型,但是由于该算法的主题个数需要人为地不断设置,因此需要花费大量的时间调节参数才能获得令人满意的主题向量。HDP(HierarchicalDirichletProcessing)主题模型是一种多层狄利克雷分布,可以被认为是LDA主题模型的一种无参估计[24]。在HDP主题模型中,所有的文档共享同一个主题集合[18],并且在该模型中,文档语料库中的主题数量不受限制,并且它可以自动学习最佳主题数。文档生成过程如图2.2所示,图模型中D表示文档的篇数,N表示每篇文档中单词的个数。图2.2HDP模型图Fig.2.2PlatenotationofHDPmodel首先,从基分布H和Beta分布参数γ构成的狄利克雷过程中,抽样出所有文档的主题集合分布0;然后从基分布0和参数构成的狄利克雷过程中,为每篇文档抽取主题分布,其中j表示文章的编号,DP代表狄利克雷过程[25]。指示了第j片文章中i个单词主题的联合分布,再从主题的联合分布中抽样产生单词。0~(,)(2.5)|0~(,0)(2.6)~(2.7)~()(2.8)

框架图,框架,方法,文档


第三章基于Word2Vec和LDA主题模型的Web服务聚类方法-12-型(LatentDirichletAllocation)对扩充后的描述文档进行主题建模。接着,对LDA生成的文档-主题向量使用不同的聚类方法实现服务聚类。最后,采用准确率、召回率以及F值对实验结果进行评价。本文使用从ProgrammableWeb收集的真实数据进行实验,经对比实验表明:使用Word2Vec进行扩充后的描述文档进行聚类的效果要优于未扩充描述文档的聚类。3.2技术框架本方法提出的方法总体框架如图3.1所示。首先,对收集到的Web服务数据集进行预处理。之后,使用Word2Vec工具对Wikipedia语料库进行训练,生成词向量模型。在词向量模型中寻找与Web服务的描述文档相似的词进行扩充,得到不同扩充程度的描述文档,使原始文本有足够的词频共现,使主题模型更加有效地估计出服务的隐含主题。然后使用文本聚类领域常用的工具LDA模型对扩充后的描述文档进行主题建模。接着,对LDA生成的文档主题分布矩阵使用K-means聚类方法实现服务聚类。最后,采用准确率、召回率以及F值对实验结果进行评价。图3.1方法总体框架Fig.3.1Theframeworkofwebservicesclustering3.3基于Word2Vec和LDA主题模型的Web服务聚类方法3.3.1Wikipedia数据集以及词向量训练过程Wikipedia是公认的互联网上最全面权威的网络百科全书,有丰富的语料库。本文采用2017年4月的英文维基百科语料库,下载地址为:https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2,大小约为11GB。其中每一个文件大约为1MB,包含了多个英文文档。本文使用python中的gensim模块对Wikipedia语料库进行训练,生成了Wikipedia语料库的词向量模型,具体参数设置如表3.1所示。

【参考文献】:
期刊论文
[1]基于LDA主题模型的移动应用相似度构建方法[J]. 褚征,于炯,王佳玉,王跃飞.  计算机应用. 2017(04)
[2]基于Django的博客系统开发研究[J]. 江柳.  电脑编程技巧与维护. 2016(13)
[3]基于word2vec的互联网商品评论情感倾向研究[J]. 黄仁,张卫.  计算机科学. 2016(S1)
[4]融合K-Means与Agnes的Mashup服务聚类方法[J]. 黄兴,刘小青,曹步清,唐明董,刘建勋.  小型微型计算机系统. 2015(11)
[5]基于MB-HDP模型的微博主题挖掘[J]. 刘少鹏,印鉴,欧阳佳,黄云,杨晓颖.  计算机学报. 2015(07)
[6]Word2vec的工作原理及应用探究[J]. 周练.  科技情报开发与经济. 2015(02)
[7]聚类方法综述[J]. 金建国.  计算机科学. 2014(S2)
[8]基于概率主题模型的物联网服务发现[J]. 魏强,金芝,许焱.  软件学报. 2014(08)
[9]一种面向主题的领域服务聚类方法[J]. 李征,王健,张能,李昭,何成万,何克清.  计算机研究与发展. 2014(02)
[10]网页设计中Bootstrap CSS框架的应用与拓展[J]. 李淼,杜明晶,苗放.  电子技术与软件工程. 2013(17)



本文编号:2990863

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2990863.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户078d3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com