基于派系过滤算法的虚假评论用户群检测研究
发布时间:2024-04-26 02:05
电子商务的发展促使在线评论数量急剧增长,产品评论成为人们购物消费的重要参考指标,但是网络中的虚假评论却在逐年增多,其发布者多为专业的虚假评论用户群。虽然国内外研究者提出了许多用于检测虚假评论和虚假评论者的方法和模型,但是仍存在许多问题,如人工标注数据的准确率低、语言特征失效、检测精确率较低和检测滞后。为了解决以上问题,本文主要研究在线评论网站中虚假评论用户群的检测模型,主要研究内容包含以下两个方面:1.针对人工标注数据的准确率低和语言特征失效的问题,提出一种基于派系过滤的虚假评论用户群离线检测模型,采用完全无监督的方式检测虚假评论用户群。首先,将评论数据构建为评论者网络。其次,在评论者网络中执行派系过滤算法,创新地将检测到的每一个k-派系链视为一个虚假评论用户群。然后,构建基于评论行为的作弊特征,从个人和群组两个维度衡量各个虚假评论用户群的可疑程度,生成群组排序列表。最后,在三个公开数据集上进行对比实验,结果表明本模型的检测精确率和排名质量高于四个对比模型,并且数据集越大,本模型的效果越好。2.针对检测滞后和检测精确率较低的问题,提出一种基于增量派系过滤的虚假评论用户群在线检测模型。首...
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
本文编号:3964548
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图1.1论文整体研究思路
2.针对检测滞后和检测精确率较低的问题,本文第四章研究了如何在线检测虚假评论用户群,提出一种基于增量派系过滤的虚假评论用户群在线检测模型。本模型主要包含两个部分,一是检测初始静态评论者网络中的虚假评论用户群,二是在线更新虚假评论用户群。其中第一部分沿用了离线检测模型的核心方法,仍....
图3.1派系过滤算法中的k-派系和k-派系链示例
k-派系是具有k个节点的完全图。图3.1(a)展示了k-派系(k=2,3,4)的示例。定义3.4:k-派系链(k-cliquecluster)
图3.2基于派系过滤的虚假评论用户群离线检测模型框架图
将评论者网络与用户的行为数据相结合,构建基于派系过滤的虚假评论用户群离线检测模型,简称GSCPM(DetectingGroupSpamviaCPM),模型的整体框架如图3.2所示。本模型的输入为评论元数据、最小群组规模和时间阈值,通过本模型中三个步骤的运算,最后输出群组排....
图3.3基于评论数据构建评论者网络
3.过滤可疑度较低的评论者节点。根据以上两步构造的评论者投影图可能会包含很多的正常评论者,接下来过滤可疑度较低的评论者节点。在本模型中,边权重值为1表示两个评论者之间相互勾结的可能性较大,边权重值为0表示两个评论者之间不存在共同评论的可能性,所以本模型在后面的计算过程中忽略边权重....
本文编号:3964548
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3964548.html
最近更新
教材专著