服务的信息抓取和分析模块的设计与实现
发布时间:2017-10-16 14:01
本文关键词:服务的信息抓取和分析模块的设计与实现
更多相关文章: RESTful服务 朴素贝叶斯 爬虫 信息提取 主题分析
【摘要】:随着Web服务的发展不断深入,RESTful Web服务凭借其轻量级、扩展性等优势得到了飞速发展,但由于大多数RESTful服务文档只是普通的HTML页面,使得如何有效识别和抓取RESTful服务成为服务发现领域面临的一个重要研究问题。同时,移动应用市场也在飞速扩张,并具有应用数量大、用户覆盖广等特点,但由于移动应用信息的纷繁复杂,面临着难以提取和分析移动应用信息以及用户评论信息的问题。 在这样的背景下,本文设计并实现了服务的信息抓取和分析模块,包括基于服务爬虫引擎的服务抓取子模块和基于网页信息提取和主题分析的服务信息分析子模块两个部分,能够完成对RESTful服务和移动应用信息的识别、抓取和分析。 本文首先介绍了国内外对服务的抓取和分析问题的研究现状,并详细介绍了服务爬虫、RESTful服务识别、网页信息提取和用户评论主题分析等相关领域的技术知识。然后对服务的抓取和信息分析模块的需求进行了分析,并对RESTful服务的识别和移动应用的用户评论主题分析进行了深入的研究。本文提出了基于朴素贝叶斯分类器和向量空间模型的RESTful服务识别方法,能够分别分析网页的文本内容和结构特征并综合得到识别结果,实验验证了本文的识别方法能够得到较高的准确率和召回率。针对移动应用的用户评论主题分析问题,本文采用基于情感分类和LDA主题模型的主题提取方法,提取出正面评论和负面评论的热门评论主题以及主题词,并通过实验验证了本文的主题建模方法能够得到较好的建模效果。接下来本文给出了服务的信息抓取与分析模块的总体设计,并详细介绍了各个子模块的功能和处理流程,通过集成测试验证了本模块能够满足本课题的需求。最后对本文的工作进行了总结并展望下一步的工作。
【关键词】:RESTful服务 朴素贝叶斯 爬虫 信息提取 主题分析
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
- 摘要4-5
- ABSTRACT5-7
- 目录7-10
- 第1章 引言10-15
- 1.1 研究背景及意义10-11
- 1.2 国内外研究现状11-12
- 1.3 论文主要工作12-13
- 1.4 论文结构13-14
- 1.5 本章小结14-15
- 第2章 相关技术15-22
- 2.1 RESTful服务的识别15-17
- 2.1.1 朴素贝叶斯分类器15-16
- 2.1.2 向量空间模型16-17
- 2.2 服务的抓取17-18
- 2.3 服务信息的提取18-19
- 2.4 用户评论的分析19-21
- 2.4.1 LDA主题模型20-21
- 2.4.2 情感分类21
- 2.5 本章小结21-22
- 第3章 需求分析22-26
- 3.1 服务信息的抓取和分析模块的需求的提出22-23
- 3.2 服务信息的抓取与分析模块的功能性需求23-25
- 3.2.1 服务的抓取子模块的功能性需求23-24
- 3.2.2 服务信息的分析子模块的功能性需求24-25
- 3.3 服务信息的抓取与分析模块的非功能性需求25
- 3.4 本章小结25-26
- 第4章 RESTful服务识别方法26-40
- 4.1 RESTful服务识别方法设计26-28
- 4.2 RESTful服务分类器训练28-31
- 4.2.1 基于网页结构的特征词库生成30-31
- 4.3 RESTful服务分类器识别31-34
- 4.4 实验结果及评价34-39
- 4.4.1 数据集34-35
- 4.4.2 参数调整实验35-38
- 4.4.3 对比实验38-39
- 4.5 本章小结39-40
- 第5章 App用户评论主题分析方法40-53
- 5.1 App用户评论主题分析方法设计40-41
- 5.2 用户评论的情感分类41-43
- 5.2.1 基于朴素贝叶斯分类器的情感分类方法41-42
- 5.2.2 基于SentiWordNet的情感分类方法42-43
- 5.3 用户评论的主题提取43-46
- 5.3.1 基于LDA主题模型的主题提取方法43-45
- 5.3.2 主题及主题词筛选方法45
- 5.3.3 主题模型的评估45-46
- 5.4 实验结果及评价46-52
- 5.4.1 数据集46-47
- 5.4.2 情感分类对比实验47-49
- 5.4.3 主题提取实验49-52
- 5.5 本章小结52-53
- 第6章 服务信息的抓取与分析模块设计与实现53-75
- 6.1 总体设计53-54
- 6.2 服务的抓取子模块54-58
- 6.2.1 RESTful服务识别模块55-57
- 6.2.2 移动应用的URL链接过滤模块57
- 6.2.3 用户评论的抓取模块57-58
- 6.3 服务信息的分析子模块58-63
- 6.3.1 移动应用的信息提取模块59-60
- 6.3.2 移动应用的用户评论分析模块60-63
- 6.4 关键模块说明63-74
- 6.4.1 RESTful服务识别子模块63-67
- 6.4.2 移动应用页面信息提取子模块67-70
- 6.4.3 移动应用用户评论主题分析子模块70-73
- 6.4.4 服务信息存储和信息分析存储子模块73-74
- 6.5 本章小结74-75
- 第7章 集成测试75-82
- 7.1 测试环境说明75
- 7.2 测试数据来源75-76
- 7.3 测试用例说明76-81
- 7.3.1 RESTful服务的识别与抓取76-77
- 7.3.2 移动应用页面的抓取77-78
- 7.3.3 移动应用的用户评论的抓取78-79
- 7.3.4 移动应用页面的信息提取79-80
- 7.3.5 移动应用的用户评论的主题分析80-81
- 7.4 测试结果分析81
- 7.5 本章小结81-82
- 第8章 结束语82-83
- 8.1 论文工作总结82
- 8.2 未来工作展望82-83
- 参考文献83-85
- 附录85-86
- 致谢86-87
- 攻读硕士学位期间发表的学术论文目录87
- 攻读硕士学位期间的主要工作87
【参考文献】
中国期刊全文数据库 前8条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
3 詹毅;;朴素贝叶斯算法和SVM算法在Web文本分类中的效率分析[J];成都大学学报(自然科学版);2013年01期
4 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
5 王辉;王晖昱;左万利;;观点挖掘综述[J];计算机应用研究;2009年01期
6 石晶;范猛;李万龙;;基于LDA模型的主题分析[J];自动化学报;2009年12期
7 余传明;张小青;陈雷;;基于LDA模型的评论热点挖掘:原理与实现[J];情报理论与实践;2010年05期
8 帖晶;方庆安;;一种基于线性回归的非结构化WEB服务识别方法[J];软件;2011年05期
,本文编号:1043055
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1043055.html