当前位置:主页 > 管理论文 > 移动网络论文 >

服务爬虫引擎中服务识别与抓取功能的设计与实现

发布时间:2021-02-09 06:21
  Web服务的松耦合架构及其开发便捷性使得它的应用范围越来越广‘,越来越多的企业和个人热衷于开发新的Web服务并将其放在网络上,如何对这些Web服务进行识别成为Web服务研究中的一个重要的问题,这也就是本文重点研究的问题。目前Web服务可以分为以下两大类:传统的结构化WSDL式Web服务以及非结构化RESTful式Web服务。针对WSDL式的Web服务,目前已有比较成熟的识别方法,但是针对RESTful式的Web服务,国内外仍没有比较成熟可用的识别方法。本文正是在这样一种背景下设计了一个针对Web服务的专用分布式爬虫引擎,此爬虫引擎能够高效的识别并抓取WSDL服务以及RESTful服务。本文首先研究了针对Web服务的专用分布式爬虫引擎中涉及到的相关理论知识及相关技术知识,确定了本文的技术路线;然后从Web服务的专用分布式爬虫引擎的需求出发,分析了此爬虫引擎的重点功能性需求及非功能性需求;随后重点针对RESTful式服务的识别提出了一种基于改进的朴素贝叶斯分类思想的识别算法,并对此算法的可行性及合理性进行了理论分析及具体实验,实验结果表明此算法对于RESTful式服务的识别能够达到很好的召... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:81 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 引言
    1.1 研究意义
    1.2 研究现状
        1.2.1 国内外研究现状
        1.2.2 论文主要工作
        1.2.3 论文结构
        1.2.4 本章小结
第2章 相关技术
    2.1 相关理论
        2.1.1 服务的识别
        2.1.2 服务的抓取
    2.2 相关技术
    2.3 本章小结
第3章 需求分析
    3.1 服务搜索引擎WSSE的整体需求说明
    3.2 DWSCE的功能性需求分析
    3.3 DWSCE的非功能性需求分析
    3.4 本章小结
第4章 DWSCE的关键技术研究
    4.1 朴素贝叶斯分类思想介结
        4.1.1 朴素贝叶斯分类器
        4.1.2 对朴素贝叶斯分类器的优化及改进
    4.2 现今主流分类思想的对比理论分析
    4.3 基于增量学习的朴素贝叶斯分类思想的服务识别算法
        4.3.1 网页去噪
        4.3.2 分类器训练阶段
        4.3.3 基于改进的朴素贝叶斯的非结构化Web服务识别算法
        4.3.4 实验结果及分析
    4.4 本章小结
第5章 DWSCE的设计与实现
    5.1 DWSCE总体设计
        5.1.1 DWSCE的总体架构
        5.1.2 DWSCE关键模块间交互流程
        5.1.3 DWSCE的关键模块内部交互流程
    5.2 DWSCE关键模块的设计实现
        5.2.1 中控节点关键模块的设计实现
        5.2.2 爬虫节点关键模块的设计实现
        5.2.3 数据节点关键模块的设计实现
    5.3 本章小结
第6章 系统测试
    6.1 测试环境说明
    6.2 测试内容说明
    6.3 典型测试用例说明
    6.4 测试总结
第7章 结束语
    7.1 论文工作总结
    7.2 未来工作展望
参考文献
附录
致谢
攻读硕士学位期间发表的学术论文目录
攻读硕士学位期间的主要工作


【参考文献】:
期刊论文
[1]一种基于线性回归的非结构化WEB服务识别方法[J]. 帖晶,方庆安.  软件. 2011(05)
[2]Web服务搜索引擎的WSRank方法研究[J]. 胡蓉,刘建勋.  计算机工程与科学. 2011(04)
[3]网页去噪:研究综述[J]. 毛先领,何靖,闫宏飞.  计算机研究与发展. 2010(12)
[4]分布式主题爬虫的设计与实现[J]. 池勇敏,郝泳涛.  计算机应用与软件. 2010(12)
[5]网络爬虫网页库智能更新策略分析与研究[J]. 周巍巍.  电脑知识与技术. 2010(31)
[6]REST和RPC:两种Web服务架构风格比较分析[J]. 冯新扬,沈建京.  小型微型计算机系统. 2010(07)
[7]节点对等Web Spider设计与实现[J]. 张林才,张燕,王红霞.  计算机技术与发展. 2010(03)
[8]基于GNP算法的分布式爬虫调度策略[J]. 刘爽,姜春祥,张伟哲,李东,张鸿.  计算机应用研究. 2010(02)
[9]高性能网络爬虫:研究综述[J]. 周德懋,李舟军.  计算机科学. 2009(08)
[10]一种基于内容规则的网页去噪算法[J]. 王建冬,王继民,田飞佳.  现代图书情报技术. 2008(03)



本文编号:3025194

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3025194.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9de3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com