基于集成分类器的微博谣言检测算法研究
发布时间:2024-03-19 00:22
微博的信息多元化、言论自由、爆炸式地传播速度等特点助长了谣言消息的生成和传播,使得微博成为了虚假不实消息传播的理想场所。因此,自动进行谣言检测的相关研究应运而生。现有的谣言检测算法取得了一些成果,但仍然还有待提升之处。首先,谣言检测正确率尤其是谣言早期检测正确率还有提升的空间;其次,现有谣言检测算法并未考虑到训练数据类别不平衡问题,会使得学习器不能充分学习到少数类样本的分布。为了解决以上问题,本文开展相关研究工作,提出了基于集成分类器的GTB-RD谣言检测算法和基于生成对抗训练的GAN-SMOTE算法。本文的主要工作如下:1.提出了基于集成分类器的谣言检测算法GTB-RD。现有微博谣言检测算法大多是一个单一的检测模型。为了提升谣言检测算法的正确率,本文基于集成学习的思想,采用梯度提升方法将多个基础检测器的检测结果结合,提出了一种新的谣言检测算法GTB-RD。2.提出了适用于GTB-RD的特征选择算法、构造了新的特征,并采用所提出的特性选择算法进行特征选择,将这些特征应用到GTB-RD谣言检测算法中,提高了谣言早期检测正确率。现有的谣言检测算法过多依赖于微博传播结构和微博评论等相关特征,...
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
本文编号:3932041
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-2RNN-based谣言检测算法使用的几种检测算法的模型结构
4←Equipartition(L());5←{emptyintervals};6′←;7Find′suchthatcontainscontinuousintervalsthatcoverth....
图2-3谣言和非谣言某特征随时间的变化情况
图2-3谣言和非谣言某特征随时间的变化情况[12]STS(DynamicSeries-TimeStructure),用于描述例,E={E1,E2,…,En},其中E包含多个跟此微博、转发内容等)。首先构造时间区间,区间长度I¢¨|a()....
图2-4KNN确定噪声点[23]
电子科技大学硕士学位论文样本是噪声样本,噪声样本会在此阶段被丢弃。算法的第二步骤为即进行多次欠采样处理,每次从原始训练数据集中随机选择N个本(假设少量类型的样本的数量为N),生成多个平衡的训练数据三步为,在得到的经过了欠采样处理后类别平衡的多个训练子集上器的训练,最终构成一....
图2-6GAN的应用领域示例
征选择是提升学习器性能的关键所在。生成对抗网络GAN(Generativeadversarialnetworks):生成对抗网络是由Goodfellow[66]等在2014年提出的一种生成模型框架,目前已成为人工智能领域中的一个热门研究方向。GAN是一种生成式模型,其....
本文编号:3932041
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3932041.html