当前位置:主页 > 管理论文 > 移动网络论文 >

互联网舆情分析中信息采集技术的研究与设计

发布时间:2017-04-11 06:00

  本文关键词:互联网舆情分析中信息采集技术的研究与设计,,由笔耕文化传播整理发布。


【摘要】:随着科学技术的逐渐成熟与发展,社会舆情的传播途径已经逐渐从传统媒体平台转向了互联网平台,互联网已经逐渐成为人民大众生活的一部分,人民大众对互联网平台的依赖程度越来越高,并且互联网的用户群体遍至各个年龄。互联网的广泛应用让我们可以随时及时地了解世界范围内发生的事件,并立即发表评论。因此,目前我们需要对互联网平台上的舆情情况进行有效监管,对恶意传播的信息及言论,及时清除,防止对社会产生不良的影响。 互联网舆情分析的关键技术点就是对网页中的信息爬取,如何高效准确的爬取到页面中的信息、,为互联网舆情的分析提供更加有效的信息源,是本文研究的重点。传统的网络爬虫程序是将页面的URL地址收集并形成一个URL地址队列,爬虫程序依据一定得爬取策略依次对URL队列中的地址进行爬取,并对爬取下来的页面信息进行分析,从而完成网络舆情分析的工作任务。然而,在Web2.0的时代,站点页面中出现了越来越多的动态页面,这些动态页面中的代码执行会改变页面的信息以及结构,但并不改变页面的URL地址,一些重要的信息要通过用户交互之后才会出现在页面中,因此,需要对传统的网络爬取程序作出一些优化和改进,用以适用爬取动态页面信息。 通过对动态页面信息特点的分析以及爬取策略的研究,本论文主要工作有: 1)对舆情系统信息采集技术相关知识进行了分析研究。网络爬虫程序是舆情系统信息采集中的关键技术,而Ajax技术在动态页面展示中有着广泛的应用,因此,为研究动态页面信息采集技术,本文对这两个技术原理进行了详细分析研究。 2)对信息采集模块所要满足的功能进行了需求分析,并完成模块总体设计。通过对本次课题所要满足的功能点进行分析,本文对信息采集模块的整体流程进行设计,并对模块关键接口进行了设计。 3)对信息采集模块进行了详细单元设计。将模块细分为4个主要的功能单元分别是页面获取单元、Ajax代码检测单元、Ajax代码解析单元以及DOM合并干扰过滤单元。并对每个单元进行了详细流程设计。 4)对信息采集模块进行了实验测试以及功能实现。通过抓取动态页面信息反馈实验,对模块抓取功能进行测试,并对信息采集模块功能进行实现并做模块功能展示。 本文通过上述工作,满足了动态页面信息采集的功能需求,并对动态页面信息采集的相关性进行了提升。
【关键词】:网络舆情 信息采集 动态页面 文档结构模型
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 绪论10-15
  • 1.1 课题背景及意义10
  • 1.2 国内外研究现状10-13
  • 1.3 本文研究内容及论文结构13-15
  • 第二章 网络爬虫及相关技术研究15-27
  • 2.1 网络爬虫15-22
  • 2.1.1 通用网络爬虫16-19
  • 2.1.2 聚焦网络爬虫19-22
  • 2.2 Ajax技术原理22-26
  • 2.2.1 Ajax工作流程22-23
  • 2.2.2 Ajax实现方法23-25
  • 2.2.3 常用Ajax轮询方式25-26
  • 2.3 本章小结26-27
  • 第三章 舆情系统信息采集模块总体设计27-43
  • 3.1 设计目标27-29
  • 3.2 信息采集方案策略设计29-36
  • 3.2.1 动态页面DOM爬取阶段研究29-33
  • 3.2.2 动态页面DOM优化阶段研究33-36
  • 3.3 信息采集方案流程设计36-37
  • 3.4 信息采集模块架构设计37-40
  • 3.4.1 模块结构设计37-39
  • 3.4.2 模块工作流程39-40
  • 3.5 模块关键接口设计40-42
  • 3.5.1 接口设计约束40
  • 3.5.2 数据源设置接口设计40-41
  • 3.5.3 微博动态预警接口设计41
  • 3.5.4 微博主题接口设计41-42
  • 3.6 本章小结42-43
  • 第四章 舆情系统信息采集模块详细设计43-58
  • 4.1 页面获取单元43-48
  • 4.1.1 页面解析机制分析43-47
  • 4.1.2 页面获取工作流程47-48
  • 4.2 Ajax代码检测单元48-50
  • 4.2.1 正则检测匹配48-49
  • 4.2.2 Ajax代码检测流程49-50
  • 4.3 Ajax代码解析单元50-53
  • 4.3.1 事件自动触发50-52
  • 4.3.2 DOM结构树保存52-53
  • 4.4 DOM合并干扰过滤单元53-57
  • 4.4.1 DOM结构分析53-56
  • 4.4.2 DOM结构合并优化56-57
  • 4.5 本章小结57-58
  • 第五章 信息采集模块实验测试与实现58-67
  • 5.1 信息采集模块实验测试58-64
  • 5.1.1 抓取动态页面信息反馈58-62
  • 5.1.2 DOM节点相关性计算62-64
  • 5.2 信息采集模块功能实现64-66
  • 5.2.1 添加数据源功能64
  • 5.2.2 微博动态信息展示功能64
  • 5.2.3 微博主题统计展示功能64-66
  • 5.3 本章小结66-67
  • 第六章 总结与展望67-69
  • 6.1 工作总结67
  • 6.2 工作展望67-69
  • 参考文献69-72
  • 致谢72

【参考文献】

中国期刊全文数据库 前10条

1 陈健瑜;;网页动态页面采集关键技术研究[J];硅谷;2009年12期

2 方明科;王煜霞;;一种动态Web信息提取方法的设计与实现[J];管理工程师;2011年03期

3 李华波;吴礼发;赖海光;郑成辉;黄康宇;;有效的爬行Ajax页面的网络爬行算法[J];电子科技大学学报;2013年01期

4 李庆林;张超;吴芳菲;;网络舆情的发展阶段及其特点研究[J];编辑之友;2014年11期

5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期

6 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期

7 钱程;阳小兰;;一种支持Ajax框架的网络爬虫的设计与实现[J];计算机与数字工程;2012年04期

8 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

9 刘政怡;基于DOM和元数据的Web信息提取[J];计算机与现代化;2003年10期

10 王平根;;基于DOM的动态网页信息抽取方法[J];科技信息;2010年31期

中国博士学位论文全文数据库 前1条

1 潘新;基于复杂网络的舆情传播模型研究[D];大连理工大学;2010年


  本文关键词:互联网舆情分析中信息采集技术的研究与设计,由笔耕文化传播整理发布。



本文编号:298431

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/298431.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f4d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com