微博舆情信息传播分析系统的设计与实现
发布时间:2021-01-10 00:31
随着技术的进步,互联网对人类生活的影响不断的加强。微博、论坛、博客这类社交媒体的普及也使得越来越多的人可以通过互联网表达自己在政治、经济、商业等各个领域的想法。从《2017中国网络舆情指数年度报告》可以发现,微博已经成为了仅次于传统媒体的的第二大舆情源。微博用户主要通过评论、点赞、转发等行为参与互动。民意负面情绪激化、意见领袖过度扭曲、主流媒体引导后劲不足等行为都会对维稳工作造成影响。因为网络舆情和大数据高度契合,传统的信息处理技术并不能有效的分析大规模的舆情网络数据,如何快速准确地分析舆情网络中的价值信息显得至关重要。本论文主要设计并实现了微博舆情信息传播分析系统,目的在于清晰直观地解析和把握舆情的演化规律。该系统通过模拟登录新浪微博对微博事件的转发信息进行采集,利用可视化技术构建舆情传播网络、识别舆情扩散的关键节点和传播路径,以网络图的形式还原了微博事件扩散的过程,为相关人员提供了一个交互性良好的舆情分析工具。本论文取得的研究成果主要如下:(1)使用node.js模拟登录新浪微博,通过网络爬虫自动抓取到微博转发信息并写入数据库中,然后根据数据库中用户之间的关系构建微博舆情转发网络图...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Node.js的异步非阻塞模型
第二章相关技术介绍9图2-2微博登录过程图2.2.2网络爬虫网络爬虫(WebCrawler)是遵循HTTP协议通过网页上的超链接自动下载HTML、XML、FTP等各种类型文件的自动化脚本。Web爬虫主要先从原始页面提取相关的链接放入待爬url队列中,再按照顺序对待爬队列中的url进行解析,自动访问解析出来的web服务器地址并下载访问页面,然后再从新页面中提取链接信息放入到待爬队列中,最后重复上面的步骤,直到待爬url队列为空或者满足其他爬行结束的条件[14]。爬虫的基本流程如图2-3所示:
东南大学硕士学位论文10图2-3爬虫基本流程图网络爬虫会按照一定的爬行策略来提高抓取页面效率,常见的搜索策略有深度优先策略和广度优先策略。在深度优先搜索策略中,网络爬虫会从起始页面开始按照由低到高的顺序,从起始页面下的一个url开始一个链接一个链接地依次访问,直到这条链路的所有链接都处理完,再回到起始页面的其他的子页面,继续跟踪搜索,直到起始页面的所有子页面都被搜索完。当目标网站的层级比较深时,这个方法的效率会比较低。在广度优先搜索策略中,网络爬虫会按照页面层次来搜索,先抓取起始页面中的同一层次的网页,当所有页面爬行结束后,再选取其中的一个url,抓取此页面中的所有链接。这个方法可以并行处理同一层级的页面来提高网络爬虫的效率[15]。微博转发过程中可能存在某个微博用户的转发层级过高,为了提高爬虫的效率,本文采用广度优先搜索的策略来爬取微博事件的转发数据,采用主从分布式爬虫先抓取微博事件下的所有转发链接,再并行处理每一个链接下面的转发链接。此外,为了防止因为爬虫速度过快被封锁ip,本文在多次访问同一站点时使用了定时器来定时执行。
本文编号:2967704
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
Node.js的异步非阻塞模型
第二章相关技术介绍9图2-2微博登录过程图2.2.2网络爬虫网络爬虫(WebCrawler)是遵循HTTP协议通过网页上的超链接自动下载HTML、XML、FTP等各种类型文件的自动化脚本。Web爬虫主要先从原始页面提取相关的链接放入待爬url队列中,再按照顺序对待爬队列中的url进行解析,自动访问解析出来的web服务器地址并下载访问页面,然后再从新页面中提取链接信息放入到待爬队列中,最后重复上面的步骤,直到待爬url队列为空或者满足其他爬行结束的条件[14]。爬虫的基本流程如图2-3所示:
东南大学硕士学位论文10图2-3爬虫基本流程图网络爬虫会按照一定的爬行策略来提高抓取页面效率,常见的搜索策略有深度优先策略和广度优先策略。在深度优先搜索策略中,网络爬虫会从起始页面开始按照由低到高的顺序,从起始页面下的一个url开始一个链接一个链接地依次访问,直到这条链路的所有链接都处理完,再回到起始页面的其他的子页面,继续跟踪搜索,直到起始页面的所有子页面都被搜索完。当目标网站的层级比较深时,这个方法的效率会比较低。在广度优先搜索策略中,网络爬虫会按照页面层次来搜索,先抓取起始页面中的同一层次的网页,当所有页面爬行结束后,再选取其中的一个url,抓取此页面中的所有链接。这个方法可以并行处理同一层级的页面来提高网络爬虫的效率[15]。微博转发过程中可能存在某个微博用户的转发层级过高,为了提高爬虫的效率,本文采用广度优先搜索的策略来爬取微博事件的转发数据,采用主从分布式爬虫先抓取微博事件下的所有转发链接,再并行处理每一个链接下面的转发链接。此外,为了防止因为爬虫速度过快被封锁ip,本文在多次访问同一站点时使用了定时器来定时执行。
本文编号:2967704
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2967704.html
最近更新
教材专著