当前位置:主页 > 管理论文 > 移动网络论文 >

基于主题模型的Web服务发现方法研究

发布时间:2019-06-28 19:16
【摘要】:Web服务作为一种自主而开放的应用实体,具有松散耦合、平台无关、互操作性强等特点,特别适合在Internet环境中发布和使用。随着互联网上Web服务数量的快速增长,如何从中快速有效地获取满足需求功能的Web服务,这是Web服务发现研究的内容。目前常见的Web服务发现方法主要有基于关键字的方法和基于语义的方法。其中基于关键字的服务发现不能理解用户语义信息,导致查全率不高,传统的基于语义服务发现方法由于限制太多,推广性不强,基于主题模型的Web服务发现是一种特殊的语义发现方法,它相比于传统的语义发现方法具有限制条件少,推广性强等优点。本文分析和研究了 Web服务发现及主题模型等相关技术,对Web服务文档特点、相似度计算方法以及聚类算法进行了深入研究。首先根据WSDL描述文档特点,结合国内外文本数据处理方法,对文档进行特征提取、去除停用词与标签、连接词分词、大小写字母转换、词干还原等,得到数据处理后的文档词汇集合。然后基于BTM对数据处理后的文档词汇集合进行主题建模,使用Gibbs采样对主题进行训练,针对主题个数不确定问题,通过计算主题结构相似度来确定主题数目,得到文档主题信息。接下来对文本相似度度量方法进行了研究,使用服务-主题向量与服务-特征词权重向量线性结合的方式来计算服务之间相似度。对聚类算法进行了研究,为了提高计算效率,使用基于最大距离法的k-means算法对Web服务进行聚类,得到Web服务簇集合。最后,对Web服务进行查询时,找到与查询最相关的Web服务簇,把簇中相关度高的Web服务作为发现的结果。本文实现了方法中的具体模块。最后利用测试集对该方法进行实验验证,实验结果表明,使用本文提出的方法进行Web服务发现具有较高的查准率。并且本文的研究对Web服务发现的相关处理过程具有借鉴意义。
[Abstract]:As an independent and open application entity, Web service has the characteristics of loose coupling, platform independence, strong interoperability and so on. It is especially suitable for publishing and using in Internet environment. With the rapid growth of the number of Web services on the Internet, how to obtain Web services that meet the requirements quickly and effectively is the content of Web service discovery. At present, the common methods of Web service discovery are keyword-based method and semantic-based method. Among them, keyword-based service discovery can not understand user semantic information, resulting in low recall. The traditional semantic service discovery method has too many limitations and low generalization. Web service discovery based on topic model is a special semantic discovery method, which has the advantages of less constraints and strong generalization compared with the traditional semantic discovery method. In this paper, Web service discovery and topic model are analyzed and studied, and the characteristics of Web service document, similarity calculation method and clustering algorithm are deeply studied. Firstly, according to the characteristics of WSDL description document, combined with domestic and foreign text data processing methods, the document feature extraction, removal of deactivated words and tags, conjunction word segmentation, case and lowercase letter conversion, word stem reduction and so on, to obtain the document vocabulary set after data processing. Then, based on BTM, the topic set of document vocabulary after data processing is modeled, and Gibbs sampling is used to train the topic. Aiming at the uncertain number of topics, the topic number is determined by calculating the similarity of topic structure, and the subject information of the document is obtained. Secondly, the measurement method of text similarity is studied, and the similarity between services is calculated by using the linear combination of service-topic vector and service-feature weight vector. The clustering algorithm is studied. In order to improve the computational efficiency, the k-means algorithm based on the maximum distance method is used to cluster the Web services, and the Web service cluster set is obtained. Finally, when querying the Web service, the Web service cluster which is most related to the query is found, and the Web service with high correlation in the cluster is taken as the result of the discovery. In this paper, the specific modules of the method are implemented. Finally, the test set is used to verify the method. The experimental results show that the proposed method has a high precision in Web service discovery. And the research of this paper has reference significance for the related processing process of Web service discovery.
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.09

【相似文献】

相关期刊论文 前10条

1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期

相关会议论文 前6条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关博士学位论文 前4条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

相关硕士学位论文 前10条

1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年

3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年

7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年

8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年

9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年

10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年



本文编号:2507546

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2507546.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e996***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com