大数据下基于分布式聚类的虚假交易商品分析与检测
发布时间:2022-11-05 05:58
产业的进步与发展总是与技术的进步拥有密不可分的联系,伴随着互联网行业的兴起,线上交易平台逐渐进入我们的生活。然而在线上交易的过程中,由于网络自身具备的虚拟属性,产生了虚假交易行为。商家通过雇佣的方式,针对某个商品进行虚假交易,以期通过虚假交易的方式得到评价商品的权利,进而从总体上带动商品的评论趋势。线上交易,由于实际接触不到商品,通常会参考评论内容,商家通过虚假交易的形式达成了影响消费者决策的目的。随着虚假交易的产业化,这些进行虚假交易的行为变得具有组织性,为了识别商品的虚假交易行为,通常从评论出发,使用评论文本、评论行为等特征寻找这种具有组织性的账户群体。然而这些工作针对的并非虚假交易商品本身,存在一定局限。本文提出了一种大数据场景下虚假交易商品的分析与检测方法,通过提取账户的交易记录,多账户间计算相似度并进行聚类,得到虚假交易账户群组,并使用四种群组交易虚假性指标针对候选群组打分,选出虚假交易群组,最终计算出商品交易记录中虚假交易群组所占的比例,得出商品的可疑度。同时,本文根据上述算法,考虑大数据场景下的应用,借鉴业界微服务架构及Sidecar设计模式,设计并实现了符合新一代微服务...
【文章页数】:48 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 概述
1.2 主要研究方法
1.3 研究现状
1.3.1 国内外研究现状
1.3.2 存在的问题
1.4 本文的主要工作
1.5 本文的组织结构
第二章 数据集的获取及预处理
2.1 数据集种类
2.2 数据样例
2.3 数据集分析
2.3.1 账户交易数量分析
2.3.2 商品交易数量分析
2.3.3 数据集特征
2.4 数据集预处理
第三章 相关模型介绍
3.1 虚假交易群组模型
3.2 交易行为相似度模型
3.3 群组模型构建
3.3.1 分类与聚类
3.3.2 聚类算法
3.4 分布式系统概述
3.4.1 分布式系统特征
3.4.2 中间件技术
第四章 虚假交易商品检测算法
4.1 算法步骤
4.2 Mini Batch K-Means算法
4.3 Canopy
4.4 群组虚假性计算
4.4.1 账户交易间隔
4.4.2 群组紧密度
4.4.3 共现频次
4.4.4 重复交易次数
4.5 商品可疑度计算
第五章 系统设计及实现
5.1 微服务架构
5.1.1 代码入侵实现
5.1.2 Sidecar实现
5.2 系统设计
5.2.1 系统设计
5.2.2 通信形式
5.2.3 数据存储及传输
5.3 系统实现
第六章 总结与展望
6.1 本文总结
6.2 不足与展望
参考文献
攻读硕士学位期间的科研成果
致谢
【参考文献】:
期刊论文
[1]基于D-S证据理论的电子商务虚假评论者检测[J]. 张文宇,岳昆,张彬彬. 小型微型计算机系统. 2018(11)
[2]虚假评论检测研究综述[J]. 李璐旸,秦兵,刘挺. 计算机学报. 2018(04)
[3]生活消费平台虚假评论识别模型的研究[J]. 李晶,吴国仕,谢菲,姚旭,齐佳音,孙鹏飞. 电子学报. 2016(12)
[4]基于个人–群体–商户关系模型的虚假评论识别研究[J]. 余传明,冯博琳,左宇恒,陈百云,安璐. 北京大学学报(自然科学版). 2017(02)
[5]基于情感特征和用户关系的虚假评论者的识别[J]. 邵珠峰,姬东鸿. 计算机应用与软件. 2016(05)
[6]一种融合Kmeans和KNN的网络入侵检测算法[J]. 华辉有,陈启买,刘海,张阳,袁沛权. 计算机科学. 2016(03)
[7]面向在线产品评论数据的有效性建模与测度研究[J]. 唐塞丽,仙树,胡蕾,刘猛,代坤. 计算机应用研究. 2016(05)
[8]基于特征表现的虚假评论人预测研究[J]. 聂卉,吴毅骏. 图书情报工作. 2015(10)
[9]基于PU学习算法的虚假评论识别研究[J]. 任亚峰,姬东鸿,张红斌,尹兰. 计算机研究与发展. 2015(03)
[10]基于社交图谱模型的虚假评论识别[J]. 李雨桥,符红光. 计算机应用. 2014(S2)
博士论文
[1]大规模数据集高效数据挖掘算法研究[D]. 申彦.江苏大学 2013
硕士论文
[1]基于DDAG-SVM的在线商品评论可信度预测研究[D]. 陈燕方.华中师范大学 2016
[2]基于二部图投影的虚假评论人群组检测算法研究[D]. 侯婷婷.沈阳理工大学 2016
本文编号:3702042
【文章页数】:48 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 概述
1.2 主要研究方法
1.3 研究现状
1.3.1 国内外研究现状
1.3.2 存在的问题
1.4 本文的主要工作
1.5 本文的组织结构
第二章 数据集的获取及预处理
2.1 数据集种类
2.2 数据样例
2.3 数据集分析
2.3.1 账户交易数量分析
2.3.2 商品交易数量分析
2.3.3 数据集特征
2.4 数据集预处理
第三章 相关模型介绍
3.1 虚假交易群组模型
3.2 交易行为相似度模型
3.3 群组模型构建
3.3.1 分类与聚类
3.3.2 聚类算法
3.4 分布式系统概述
3.4.1 分布式系统特征
3.4.2 中间件技术
第四章 虚假交易商品检测算法
4.1 算法步骤
4.2 Mini Batch K-Means算法
4.3 Canopy
4.4 群组虚假性计算
4.4.1 账户交易间隔
4.4.2 群组紧密度
4.4.3 共现频次
4.4.4 重复交易次数
4.5 商品可疑度计算
第五章 系统设计及实现
5.1 微服务架构
5.1.1 代码入侵实现
5.1.2 Sidecar实现
5.2 系统设计
5.2.1 系统设计
5.2.2 通信形式
5.2.3 数据存储及传输
5.3 系统实现
第六章 总结与展望
6.1 本文总结
6.2 不足与展望
参考文献
攻读硕士学位期间的科研成果
致谢
【参考文献】:
期刊论文
[1]基于D-S证据理论的电子商务虚假评论者检测[J]. 张文宇,岳昆,张彬彬. 小型微型计算机系统. 2018(11)
[2]虚假评论检测研究综述[J]. 李璐旸,秦兵,刘挺. 计算机学报. 2018(04)
[3]生活消费平台虚假评论识别模型的研究[J]. 李晶,吴国仕,谢菲,姚旭,齐佳音,孙鹏飞. 电子学报. 2016(12)
[4]基于个人–群体–商户关系模型的虚假评论识别研究[J]. 余传明,冯博琳,左宇恒,陈百云,安璐. 北京大学学报(自然科学版). 2017(02)
[5]基于情感特征和用户关系的虚假评论者的识别[J]. 邵珠峰,姬东鸿. 计算机应用与软件. 2016(05)
[6]一种融合Kmeans和KNN的网络入侵检测算法[J]. 华辉有,陈启买,刘海,张阳,袁沛权. 计算机科学. 2016(03)
[7]面向在线产品评论数据的有效性建模与测度研究[J]. 唐塞丽,仙树,胡蕾,刘猛,代坤. 计算机应用研究. 2016(05)
[8]基于特征表现的虚假评论人预测研究[J]. 聂卉,吴毅骏. 图书情报工作. 2015(10)
[9]基于PU学习算法的虚假评论识别研究[J]. 任亚峰,姬东鸿,张红斌,尹兰. 计算机研究与发展. 2015(03)
[10]基于社交图谱模型的虚假评论识别[J]. 李雨桥,符红光. 计算机应用. 2014(S2)
博士论文
[1]大规模数据集高效数据挖掘算法研究[D]. 申彦.江苏大学 2013
硕士论文
[1]基于DDAG-SVM的在线商品评论可信度预测研究[D]. 陈燕方.华中师范大学 2016
[2]基于二部图投影的虚假评论人群组检测算法研究[D]. 侯婷婷.沈阳理工大学 2016
本文编号:3702042
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3702042.html