当前位置:主页 > 社科论文 > 新闻传播论文 >

基于密度峰值融合K-means聚类算法的微博舆情分析

发布时间:2024-06-30 02:34
  社交媒体近几年快速发展,微博逐渐发展成为了人们日常生活中不可或缺的一种社交媒体。微博舆情对社会具有极强的影响力,它实时地反映了大众对各种事件的观点和态度,是政府掌握事件舆情和发展动态、企业了解民意的重要渠道。因此及时准确地分析微博舆情对正确地预测和控制社会事态的发展、对促进国家的经济建设和维护社会的安定团结具有极其重要的意义。本文将针对微博舆情分析技术展开深入研究,包含微博数据获取、微博文本的预处理、文本聚类以及舆情结果分析这四个方面。本文的研究工作主要包括以下三个部分:第一部分采用密度峰值算法(CFSFDP)融合K-means算法方式完成微博文本聚类。密度峰值快速准确地发现聚类中心弥补K-means算法选取聚类中心时具有随机性的不足。但密度峰值算法存在截断距离需手动设定、聚类中心选取较主观的缺点。本文提出一种截断距离选取策略,找出最优截断距离,然后对布局密度以及相对最小距离实行归一化处理后,引入斜率变化计算方法实现自动化确定聚类中心,最后利用K-means算法简单易操作的特点迭代聚类。将融合后算法和其他算法进行实验操作后对比分析,验证本文算法在文本聚类方面的精确性和稳定性,更好地挖掘...

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

图3.1微博开放平台Fig.3.1WeiboOpenPlatform

图3.1微博开放平台Fig.3.1WeiboOpenPlatform

19第3章微博数据采集获取微博文本是进行舆情分析实验的前提,微博文本数据的采集主要是利用微博搜索界面利用网页提取技术来爬取数据,采集技术主要包括基于微博API的采集方式,另一种是手工开发抓取程序的形式,本文接下来将详细介绍这两种不同的采集方式。3.1微博API数据采集方式3.1.....


图3.4请求数据流Fig.3.4RequestDataFlow

图3.4请求数据流Fig.3.4RequestDataFlow

23网络爬虫抓取数据是通过模拟浏览器行为向服务器发送请求从而获得微博文本信息的过程,本章节主要介绍网络爬虫爬取数据的方式中需要解决的关键性的问题:对网页抓包以及微博站点进行分析,模拟浏览器行为请求并开启微博数据爬取,最后对存储的微博数据存储予以解析。爬虫方式获取数据流程图如图3.....


图3.5请求相应信息Fig.3.5RequestCorrespondingInformation

图3.5请求相应信息Fig.3.5RequestCorrespondingInformation

23网络爬虫抓取数据是通过模拟浏览器行为向服务器发送请求从而获得微博文本信息的过程,本章节主要介绍网络爬虫爬取数据的方式中需要解决的关键性的问题:对网页抓包以及微博站点进行分析,模拟浏览器行为请求并开启微博数据爬取,最后对存储的微博数据存储予以解析。爬虫方式获取数据流程图如图3.....


图3.6微博高级搜索Fig.3.6WeiboAdvancedSearch

图3.6微博高级搜索Fig.3.6WeiboAdvancedSearch

24者工具中分析抓包过程。当用户访问微博点击登录时,如图3.4所示的开发者模式中可以看到捕捉的登录请求数据流。Network可以查看所有加载的请求。由图3.5所示,点击左侧的请求网址,可以通过右侧的Headers看到头部参数设置,这里面包含了请求的URL和相应的信息,点击Resp....



本文编号:3998259

资料下载
论文发表

本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3998259.html

上一篇:《宁夏民国日报》研究(1935-1949)  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7adf4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com