爬虫算法在互联网舆情系统的研究与应用
发布时间:2017-06-15 16:00
本文关键词:爬虫算法在互联网舆情系统的研究与应用,由笔耕文化传播整理发布。
【摘要】:随着科技的不断进步,人类已经进入了一个全新的“信息时代”。互联网已经成为了当前主流的信息载体之一。面对互联网上的大量舆情信息,如何实现对其进行有效的监控和筛选也成为了研究重点。由于通用搜索引擎无法满足特定用户群体的搜索需要,针对特定主题的主题爬虫应运而生,主题爬虫也为互联网舆情系统中的垂直搜索部分提供了数据来源。本文以国内外的现有研究成果为依据,通过分析当前互联网舆情环境,设计了互联网舆情系统,并针对其中的主题爬虫进行了研究设计。对影响主题爬虫性能的关键性算法进行了研究改进,并在系统中完成了主题爬虫的实现。本文完成的主要研究内容如下:1)分析了主题爬虫性能对比通用爬虫的优势,对其搜索策略和网页评价算法进行研究,根据比较选择了最佳优先策略作为其搜索策略,并通过建立向量空间模型来对网页进行评价。同时研究了主题孤岛和拒绝协议两大关键问题,在此基础上对本文中使用的主题爬虫进行了结构设计;2)分析了当前网络舆情环境特点,针对这些特点进行需求分析,根据得到的需求进行互联网舆情系统的结构设计;3)给出了主题爬虫在互联网舆情系统中的具体实现,包括抓取策略、分析策略、爬行策略、去重策略和任务调度策略,对抓取时的主题库更新问题提出了动态扩充的解决办法,并针对网页去重I-Match算法和任务调度Hash算法中的不足进行了设计改进,改用了一致性Hash算法进行任务调度,最后对系统进行了测试。本文设计的主题爬虫综合了主题库改进策略和算法改进,从整体方面提升爬虫性能。经过测试,本文设计的主题爬虫性能优于一般主题爬虫。
【关键词】:互联网舆情 主题爬虫 动态扩充 一致性Hash
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-12
- 第一章 绪论12-17
- 1.1 研究目的及意义12-14
- 1.2 国内外研究现状14-15
- 1.2.1 互联网舆情系统国内外研究现状14
- 1.2.2 网络爬虫国内外研究现状14-15
- 1.3 主要研究内容及难点15-16
- 1.4 论文结构16-17
- 第二章 爬虫算法技术17-31
- 2.1 网络爬虫算法概述17-21
- 2.1.1 通用爬虫算法概述17-19
- 2.1.2 主题爬虫算法概述19-21
- 2.2 常用爬虫算法21-22
- 2.3 爬虫相关技术22-29
- 2.3.1 一般爬虫搜索策略22-23
- 2.3.2 最佳优先搜索策略23-25
- 2.3.3 网页评价技术25-27
- 2.3.4 其他相关技术27-29
- 2.4 开发相关技术29-30
- 2.4.1 JAVA技术概述29
- 2.4.2 XML技术概述29-30
- 2.5 本章小结30-31
- 第三章 主题爬虫算法设计31-38
- 3.1 主题爬虫算法需求分析31
- 3.2 主题爬虫体系结构设计31-36
- 3.2.1 主题爬虫模块化设计32-33
- 3.2.2 爬虫控制模块33-35
- 3.2.3 工作流程中各模块交互过程35-36
- 3.3 主题爬虫拒绝协议研究36-37
- 3.4 本章小结37-38
- 第四章 互联网舆情系统设计38-48
- 4.1 网络舆情的概述与特点38-39
- 4.2 需求分析39-41
- 4.3 系统框架功能设计41-43
- 4.4 互联网舆情系统关键技术43-46
- 4.4.1 网页分析技术43-44
- 4.4.2 中文分词技术44-45
- 4.4.3 文本分类技术45-46
- 4.5 系统主要难点46-47
- 4.6 本章小结47-48
- 第五章 爬虫算法在互联网舆情系统中的实现48-63
- 5.1 主题爬虫对网页的抓取策略48-49
- 5.2 主题爬虫对网页的分析策略49-50
- 5.2.1 对URL的分析49
- 5.2.2 对网页内容的分析49-50
- 5.3 主题爬虫的爬行策略50-54
- 5.3.1 基本主题词库构建50
- 5.3.2 特征向量TD-IDF加权算法50-51
- 5.3.3 网页内容与主题相关度51-52
- 5.3.4 主题词库的动态扩充52-53
- 5.3.5 爬行策略53-54
- 5.4 主题爬虫的去重策略54-56
- 5.4.1 Web页面重复特点54-55
- 5.4.2 网页内容特征提取55
- 5.4.3 I-Match去重算法55-56
- 5.5 主题爬虫的任务调度策略56-62
- 5.5.1 主题爬虫的多任务调度57-58
- 5.5.2 运用改进Hash算法进行任务调度58-62
- 5.6 本章小结62-63
- 第六章 互联网舆情系统功能测试63-67
- 6.1 舆情系统测试环境63
- 6.2 舆情系统测试及结果63-66
- 6.3 本章小结66-67
- 第七章 结论67-68
- 参考文献68-70
- 攻读学位期间发表的学术论文目录70-71
- 致谢71
【参考文献】
中国期刊全文数据库 前2条
1 严晓光;王小刚;陈卓宁;张金;;软件质量保障平台中基于RBAC的统一身份认证应用研究[J];计算机工程与科学;2009年03期
2 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
中国硕士学位论文全文数据库 前1条
1 刘春辉;基于优化最大匹配的中文分词方法研究[D];燕山大学;2009年
本文关键词:爬虫算法在互联网舆情系统的研究与应用,,由笔耕文化传播整理发布。
本文编号:452811
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/452811.html