基于密度峰值融合K-means聚类算法的微博舆情分析
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图3.1微博开放平台Fig.3.1WeiboOpenPlatform
19第3章微博数据采集获取微博文本是进行舆情分析实验的前提,微博文本数据的采集主要是利用微博搜索界面利用网页提取技术来爬取数据,采集技术主要包括基于微博API的采集方式,另一种是手工开发抓取程序的形式,本文接下来将详细介绍这两种不同的采集方式。3.1微博API数据采集方式3.1.....
图3.4请求数据流Fig.3.4RequestDataFlow
23网络爬虫抓取数据是通过模拟浏览器行为向服务器发送请求从而获得微博文本信息的过程,本章节主要介绍网络爬虫爬取数据的方式中需要解决的关键性的问题:对网页抓包以及微博站点进行分析,模拟浏览器行为请求并开启微博数据爬取,最后对存储的微博数据存储予以解析。爬虫方式获取数据流程图如图3.....
图3.5请求相应信息Fig.3.5RequestCorrespondingInformation
23网络爬虫抓取数据是通过模拟浏览器行为向服务器发送请求从而获得微博文本信息的过程,本章节主要介绍网络爬虫爬取数据的方式中需要解决的关键性的问题:对网页抓包以及微博站点进行分析,模拟浏览器行为请求并开启微博数据爬取,最后对存储的微博数据存储予以解析。爬虫方式获取数据流程图如图3.....
图3.6微博高级搜索Fig.3.6WeiboAdvancedSearch
24者工具中分析抓包过程。当用户访问微博点击登录时,如图3.4所示的开发者模式中可以看到捕捉的登录请求数据流。Network可以查看所有加载的请求。由图3.5所示,点击左侧的请求网址,可以通过右侧的Headers看到头部参数设置,这里面包含了请求的URL和相应的信息,点击Resp....
本文编号:3998259
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3998259.html
下一篇:没有了