当前位置:主页 > 科技论文 > 搜索引擎论文 >

爬虫算法在互联网舆情系统的研究与应用

发布时间:2017-06-15 16:00

  本文关键词:爬虫算法在互联网舆情系统的研究与应用,由笔耕文化传播整理发布。


【摘要】:随着科技的不断进步,人类已经进入了一个全新的“信息时代”。互联网已经成为了当前主流的信息载体之一。面对互联网上的大量舆情信息,如何实现对其进行有效的监控和筛选也成为了研究重点。由于通用搜索引擎无法满足特定用户群体的搜索需要,针对特定主题的主题爬虫应运而生,主题爬虫也为互联网舆情系统中的垂直搜索部分提供了数据来源。本文以国内外的现有研究成果为依据,通过分析当前互联网舆情环境,设计了互联网舆情系统,并针对其中的主题爬虫进行了研究设计。对影响主题爬虫性能的关键性算法进行了研究改进,并在系统中完成了主题爬虫的实现。本文完成的主要研究内容如下:1)分析了主题爬虫性能对比通用爬虫的优势,对其搜索策略和网页评价算法进行研究,根据比较选择了最佳优先策略作为其搜索策略,并通过建立向量空间模型来对网页进行评价。同时研究了主题孤岛和拒绝协议两大关键问题,在此基础上对本文中使用的主题爬虫进行了结构设计;2)分析了当前网络舆情环境特点,针对这些特点进行需求分析,根据得到的需求进行互联网舆情系统的结构设计;3)给出了主题爬虫在互联网舆情系统中的具体实现,包括抓取策略、分析策略、爬行策略、去重策略和任务调度策略,对抓取时的主题库更新问题提出了动态扩充的解决办法,并针对网页去重I-Match算法和任务调度Hash算法中的不足进行了设计改进,改用了一致性Hash算法进行任务调度,最后对系统进行了测试。本文设计的主题爬虫综合了主题库改进策略和算法改进,从整体方面提升爬虫性能。经过测试,本文设计的主题爬虫性能优于一般主题爬虫。
【关键词】:互联网舆情 主题爬虫 动态扩充 一致性Hash
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要6-7
  • Abstract7-12
  • 第一章 绪论12-17
  • 1.1 研究目的及意义12-14
  • 1.2 国内外研究现状14-15
  • 1.2.1 互联网舆情系统国内外研究现状14
  • 1.2.2 网络爬虫国内外研究现状14-15
  • 1.3 主要研究内容及难点15-16
  • 1.4 论文结构16-17
  • 第二章 爬虫算法技术17-31
  • 2.1 网络爬虫算法概述17-21
  • 2.1.1 通用爬虫算法概述17-19
  • 2.1.2 主题爬虫算法概述19-21
  • 2.2 常用爬虫算法21-22
  • 2.3 爬虫相关技术22-29
  • 2.3.1 一般爬虫搜索策略22-23
  • 2.3.2 最佳优先搜索策略23-25
  • 2.3.3 网页评价技术25-27
  • 2.3.4 其他相关技术27-29
  • 2.4 开发相关技术29-30
  • 2.4.1 JAVA技术概述29
  • 2.4.2 XML技术概述29-30
  • 2.5 本章小结30-31
  • 第三章 主题爬虫算法设计31-38
  • 3.1 主题爬虫算法需求分析31
  • 3.2 主题爬虫体系结构设计31-36
  • 3.2.1 主题爬虫模块化设计32-33
  • 3.2.2 爬虫控制模块33-35
  • 3.2.3 工作流程中各模块交互过程35-36
  • 3.3 主题爬虫拒绝协议研究36-37
  • 3.4 本章小结37-38
  • 第四章 互联网舆情系统设计38-48
  • 4.1 网络舆情的概述与特点38-39
  • 4.2 需求分析39-41
  • 4.3 系统框架功能设计41-43
  • 4.4 互联网舆情系统关键技术43-46
  • 4.4.1 网页分析技术43-44
  • 4.4.2 中文分词技术44-45
  • 4.4.3 文本分类技术45-46
  • 4.5 系统主要难点46-47
  • 4.6 本章小结47-48
  • 第五章 爬虫算法在互联网舆情系统中的实现48-63
  • 5.1 主题爬虫对网页的抓取策略48-49
  • 5.2 主题爬虫对网页的分析策略49-50
  • 5.2.1 对URL的分析49
  • 5.2.2 对网页内容的分析49-50
  • 5.3 主题爬虫的爬行策略50-54
  • 5.3.1 基本主题词库构建50
  • 5.3.2 特征向量TD-IDF加权算法50-51
  • 5.3.3 网页内容与主题相关度51-52
  • 5.3.4 主题词库的动态扩充52-53
  • 5.3.5 爬行策略53-54
  • 5.4 主题爬虫的去重策略54-56
  • 5.4.1 Web页面重复特点54-55
  • 5.4.2 网页内容特征提取55
  • 5.4.3 I-Match去重算法55-56
  • 5.5 主题爬虫的任务调度策略56-62
  • 5.5.1 主题爬虫的多任务调度57-58
  • 5.5.2 运用改进Hash算法进行任务调度58-62
  • 5.6 本章小结62-63
  • 第六章 互联网舆情系统功能测试63-67
  • 6.1 舆情系统测试环境63
  • 6.2 舆情系统测试及结果63-66
  • 6.3 本章小结66-67
  • 第七章 结论67-68
  • 参考文献68-70
  • 攻读学位期间发表的学术论文目录70-71
  • 致谢71

【参考文献】

中国期刊全文数据库 前2条

1 严晓光;王小刚;陈卓宁;张金;;软件质量保障平台中基于RBAC的统一身份认证应用研究[J];计算机工程与科学;2009年03期

2 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

中国硕士学位论文全文数据库 前1条

1 刘春辉;基于优化最大匹配的中文分词方法研究[D];燕山大学;2009年


  本文关键词:爬虫算法在互联网舆情系统的研究与应用,,由笔耕文化传播整理发布。



本文编号:452811

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/452811.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4f12***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com