当前位置:主页 > 科技论文 > 软件论文 >

针对微博舆情的采集与分析系统的设计与实现

发布时间:2020-02-04 00:57
【摘要】:随着互联网的飞速发展,微博成为了国内分享网络信息的主要途径,微博给人们的生活带来了方便。但由于缺乏对信息的有效监控和管理,为社会带来了虚假信息和造谣信息,破坏了良好的网络舆论,可能危害公众的生活。因此,我们需要一个针对微博舆情的采集与分析系统,来对微博的舆论进行实时有效的监控,能够及时发现热点舆情和计算该主题的情感强度,并可对负面消息进行适当的引导舆论。本文对微博舆情系统的采集技术和舆情分析技术进行研究和分析,并对该系统进行了设计与实现,主要工作有:(1)在Scrapy爬虫的基础上,本文基于ZeroMq设计了一个高效的分布式爬虫系统。该系统结合了微博的特点,提出了使用位图法和Hash索引相结合的方法解决海量的URL冲突问题;同时针对微博对网络爬虫的反爬虫限制,利用了代理节点采集和定时采集相结合的策略来提高爬取数据的效率;为提高数据量,还结合了微博提供的开放平台服务接口来爬取微博数据,扩大数据量。(2)本文提出了优化主题微博情感强度计算的方法。该方法构建了情感词典,然后对主题的评论进行预处理;同时基于主题微博的评论的情感来计算其情感强度;最后提出了使用微博的认证类型来优化情感强度的方法。实验结果表明该方法能使主题微博情感强度的准确度提高0.05~0.1。(3)本文实现了微博舆情分析系统并进行了界面展示,通过对微博数据进行了微博发布行为的时间分布、微博转发延迟的时间分布以及微博舆情热点等实验分析。实验结果表明该系统结合代理采集系统可以实时的监控微博舆情并使用优化主题微博情感强度计算的方法能有效的分析出热点舆情的情感倾向。
【图文】:

过程图,用户登录,过程图,交互过程


才可以下载到网页的内容,因此本文在爬虫框架中采用了模拟登录微博帐逡逑号来抓取微博数据。本文使用了邋commview这个工具抓包来分析微博登录的整个逡逑交互过程。如图2-2所示,新浪微博通过对用户的帐号和密码两者进行验证来保逡逑证用户登录信息的安全性。逡逑其完整的HTTP包交互过程如下:逡逑(1)

过程图,网页结构,化分,标签


逦第二章微博舆情系统的相关技术逡逑文档读入到程序中,依次把标签都压入到栈中,然后再依次建立相应的标签树,逡逑如图2-3所示。当读到正文“微博舆情监控系统”的时候,就把该正文保留到树逡逑的叶子节点中。然后继续扫描源文档,,当发现反向标签时,例如</title>,在与前逡逑面压栈的内容对比,找到与之对应的标签,并把它pop出来,直到扫描到文档结逡逑尾为止。逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1

【参考文献】

相关期刊论文 前9条

1 钟明翔;唐晋韬;谢松县;王挺;;一种基于动态网页解析的微博数据抓取方法[J];舰船电子工程;2015年10期

2 李志明;;知网、万方、维普论文相似性检测系统比较研究[J];大学图书情报学刊;2015年01期

3 张宇;吕龙;赵萍;;四川省高校图书馆微博使用现状的调查和分析——基于新浪微博认证用户调查[J];四川图书馆学报;2014年03期

4 侯敏;滕永林;李雪燕;陈毓麒;郑双美;侯明午;周红照;;话题型微博语言特点及其情感分析策略研究[J];语言文字应用;2013年02期

5 李跃健;朱程荣;;基于Larbin的网络爬虫体系结构的研究与改进[J];计算机技术与发展;2012年07期

6 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期

7 姚昱;朱山风;陈莘萌;;基于投票模型的元搜索排序合成算法[J];计算机工程;2007年22期

8 孙晋众;陈世权;;网络组织拓扑聚类分析[J];太原理工大学学报;2007年01期

9 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期

相关硕士学位论文 前5条

1 耿大伟;基于Python技术的校园网搜索引擎的设计与实现[D];燕山大学;2015年

2 胡伟;基于Nutch的分布式爬虫研究与优化[D];上海师范大学;2015年

3 蓝天广;电子商务产品在线评论的细粒度情感强度分析[D];北京邮电大学;2015年

4 单月光;基于微博的网络舆情关键技术的研究与实现[D];电子科技大学;2013年

5 周丽;我国政务微博的现状、问题与对策研究[D];江西财经大学;2012年



本文编号:2576175

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2576175.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38161***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com