面向电子商务的虚假评论检测的关键技术研究
发布时间:2017-04-02 08:13
本文关键词:面向电子商务的虚假评论检测的关键技术研究,由笔耕文化传播整理发布。
【摘要】:评论数据作为电商平台的重要信息数据,在商业活动中发挥着重要的作用,但大量的虚假评论的存在,给消费者和商业组织带来错误导向,造成巨大损失,因此,对其进行检测和控制具有重要意义。电商平台存在大量的评论数据,面对如此多的评论数据,已有的虚假评论检测方法存在一定局限性。电商平台商品种类多,涉及到的评论数据类型纷繁复杂,基于内容特征的方法采用的分类特征通常具有领域依赖性,分类性能依赖大量正确的领域标注评论数据,泛化能力差。基于行为分析的方法虽然不需要标注评论数据,但其依赖特定的用户评论行为,识别率不高。针对这些问题,本文提出系统性的面向电商平台虚假评论的检测方法。研究内容包括三个方面。其一是识别含有虚假评论的目标商品;其二是评论文本相似性度量;其三是虚假评论识别特征挖掘以及虚假评论检测模型构建。论文的主要工作如下:1)提出一种面向电商平台的虚假评论目标商品的识别算法。电商评论涉及范围广、数据量大,导致现有虚假评论检测方法准确率下降。为了从大数据量的电商评论中获得虚假评论样本数据,进行有针对性的研究,先对虚假评论目标商品的识别进行研究。研究发现商品的用户评分行为服从特定统计规律,当存在一定量虚假评分行为时,会表现出与正常评分行为规律相背离,通过把这种差异指标化,利用数值指标识别对商品列表排序,排序高的商品含有大量虚假评论的可能性越大。实验结果表明,该方法排序的TOP商品对应的评论确实含有大量虚假评论,该方法可以有效识别含有虚假评论的目标商品。2)提出了一种评论文本相似性的度量算法。针对传统文本相似性度量方法准确率不高,本文利用评论文本的内容组织特征,构建评论文本树形结构,将其相似性度量分解为对应树各层之间的相似性度量,从而使得每层相似度的度量对象都为同类型的词语,进而分别采用对应的相似性度量方法计算各层的相似性,最后再对各层相似度按照权重融合得到整体的相似度。在真实数据集上的实验结果表明本文方法较其它常见度量方法更加有效,准确率更高。3)提出一种动静态特征融合的虚假评论检测算法。针对现有虚假评论检测方法未充分利用用户历史行为中蕴含的动态信息。本文首先利用时序分析模型从这些动态信息中挖掘能够刻画用户行为的动态特征;其次,融合这些动态特征与用户层面静态特征发现可疑用户,并将用户可疑概率传播至用户所发表评论得到评论可疑概率;最后,结合评论可疑概率与评论层面静态特征,使用PU-Learning学习策略训练高性能的分类器,实现虚假评论的检测。在真实数据集上的实验表明,本文方法的性能优于现有方法。
【关键词】:虚假评论 评论分布 树形结构 相似性度量 时序分析 融合特征 PU-Learning
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 绪论11-19
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.3 问题的提出与分析14-15
- 1.4 本文主要内容和章节安排15-19
- 1.4.1 主要内容15-17
- 1.4.2 章节安排17-19
- 第二章 基于评分分布异常的目标商品识别方法19-31
- 2.1 引言19-20
- 2.2 Amazon评论数据分布分析20-23
- 2.2.1 Amazon商品评分分布20-21
- 2.2.2 Amazon商品评分分布的分布21-23
- 2.3 基于评论评分分布异常的目标商品识别方法23-24
- 2.3.1 可信用户筛选23
- 2.3.2 商品列表排序方法23-24
- 2.4 实验分析24-29
- 2.4.1 评估方法25
- 2.4.2 实验设置25-26
- 2.4.3 参照数据设置26
- 2.4.4 实验结果及分析26-29
- 2.5 本章小结29-31
- 第三章 基于树形结构的评论文本相似性度量方法31-39
- 3.1 引言31
- 3.2 文本相似度计算相关方法31-32
- 3.3 基于树形结构的评论文本相似度度量算法32-35
- 3.3.1 评论树结构定义32-33
- 3.3.2 评论的树形结构生成33
- 3.3.3 树形结构的层次相似度度量33-35
- 3.3.4 树形结构的相似度合成35
- 3.4 实验分析35-37
- 3.4.1 实验数据集35-36
- 3.4.2 实验结果及分析36-37
- 3.5 本章小结37-39
- 第四章 基于融合特征的虚假评论检测方法39-49
- 4.1 引言39
- 4.2 动态特征提取39-42
- 4.2.1 动态信息40
- 4.2.2 时序分析模型40-42
- 4.3 融合动态特征与静态特征的虚假评论检测方法42-45
- 4.3.1 评论可疑概率的获取42
- 4.3.2 PU-Learning分类策略42-45
- 4.4 实验分析45-47
- 4.4.1 实验数据45-46
- 4.4.2 评价指标46
- 4.4.3 实验结果与分析46-47
- 4.5 本章小结47-49
- 第五章 总结与展望49-51
- 5.1 主要研究内容总结49
- 5.2 论文主要创新点49-50
- 5.3 下一步研究工作展望50-51
- 致谢51-53
- 参考文献53-57
- 作者简历57
【参考文献】
中国期刊全文数据库 前6条
1 张佩云;陈传明;黄波;;基于子树匹配的文本相似度算法[J];模式识别与人工智能;2014年03期
2 施侃晟;刘海涛;宋文涛;;基于词性和中心点改进的文本聚类方法[J];模式识别与人工智能;2012年06期
3 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
4 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
5 彭京;杨冬青;唐世渭;王腾蛟;高军;;基于概念相似度的文本相似计算[J];中国科学(F辑:信息科学);2009年05期
6 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
本文关键词:面向电子商务的虚假评论检测的关键技术研究,由笔耕文化传播整理发布。
,本文编号:282162
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/282162.html
最近更新
教材专著