针对微博舆情的采集与分析系统的设计与实现
【图文】:
才可以下载到网页的内容,因此本文在爬虫框架中采用了模拟登录微博帐逡逑号来抓取微博数据。本文使用了邋commview这个工具抓包来分析微博登录的整个逡逑交互过程。如图2-2所示,新浪微博通过对用户的帐号和密码两者进行验证来保逡逑证用户登录信息的安全性。逡逑其完整的HTTP包交互过程如下:逡逑(1)
逦第二章微博舆情系统的相关技术逡逑文档读入到程序中,依次把标签都压入到栈中,然后再依次建立相应的标签树,逡逑如图2-3所示。当读到正文“微博舆情监控系统”的时候,就把该正文保留到树逡逑的叶子节点中。然后继续扫描源文档,,当发现反向标签时,例如</title>,在与前逡逑面压栈的内容对比,找到与之对应的标签,并把它pop出来,直到扫描到文档结逡逑尾为止。逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前9条
1 钟明翔;唐晋韬;谢松县;王挺;;一种基于动态网页解析的微博数据抓取方法[J];舰船电子工程;2015年10期
2 李志明;;知网、万方、维普论文相似性检测系统比较研究[J];大学图书情报学刊;2015年01期
3 张宇;吕龙;赵萍;;四川省高校图书馆微博使用现状的调查和分析——基于新浪微博认证用户调查[J];四川图书馆学报;2014年03期
4 侯敏;滕永林;李雪燕;陈毓麒;郑双美;侯明午;周红照;;话题型微博语言特点及其情感分析策略研究[J];语言文字应用;2013年02期
5 李跃健;朱程荣;;基于Larbin的网络爬虫体系结构的研究与改进[J];计算机技术与发展;2012年07期
6 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
7 姚昱;朱山风;陈莘萌;;基于投票模型的元搜索排序合成算法[J];计算机工程;2007年22期
8 孙晋众;陈世权;;网络组织拓扑聚类分析[J];太原理工大学学报;2007年01期
9 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期
相关硕士学位论文 前5条
1 耿大伟;基于Python技术的校园网搜索引擎的设计与实现[D];燕山大学;2015年
2 胡伟;基于Nutch的分布式爬虫研究与优化[D];上海师范大学;2015年
3 蓝天广;电子商务产品在线评论的细粒度情感强度分析[D];北京邮电大学;2015年
4 单月光;基于微博的网络舆情关键技术的研究与实现[D];电子科技大学;2013年
5 周丽;我国政务微博的现状、问题与对策研究[D];江西财经大学;2012年
本文编号:2576175
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2576175.html