基于多视图学习的虚假评论识别研究
发布时间:2020-10-01 06:30
随着各种网络通信技术的快速发展,互联网的影响力正日益改变着人们的生活,大众消费模式逐渐由“线下”向“线上”转变,网络购物因其方便、快捷等特点逐渐成为人们消费的首要选择。通常,用户在做出购买决策前,会参考其他用户对目标商品或服务的评论做出相应判断。在线评论蕴含着丰富的观点信息,对评论使用群体具有重要利用价值,真实可信的评论能帮助消费者做出正确的消费决定,同时也是商业群体获取用户真正需求与反馈的重要途径,因此对在线评论的可信度进行衡量,识别并过滤虚假的评论信息具有重要的意义。本文围绕虚假评论识别,对其识别框架、技术方法等进行分析总结,针对当前研究在特征提取及融合、标注数据集缺失方面存在的主要问题,提出使用多视图学习的方法进行解决。本文的主要研究内容如下:1.针对标记样本数量有限的问题,提出使用半监督协同训练算法进行识别,以降低人工标注的工作量。从评论文本及评论行为两个视图构建特征集,利用主成分分析提取特征后,针对各视图特点挑选基分类器,最后将对分类结果影响较大的主要成分递交分类器进行协同训练,实验结果证明了协同训练算法能充分利用未标记样本辅助模型训练,一定程度地弥补因标注样本不足带来的局限性。2.结合以往研究中的常用特征指标,通过分析虚假评论与真实评论的不同表现形式,细化评论文本、评论行为两个视图维度,构建了一个较完整的评论可信度评价指标体系。针对以往研究中将不同视图特征直接首尾拼接组合成为新特征所带来的特征冗余、高维度等问题,提出利用典型相关分析将各视图特征投影到共享的低维子空间后,再采用两种不同的特征融合策略进行组合,最后通过对比实验证明了所选特征与所提方法的有效性。3.考虑到协同训练初始阶段基分类器的分类性能较弱,可能将错误标记的噪声样本加入训练集中,随着训练不断迭代,这种错误会逐渐累积进而影响模型的最终分类性能。针对此问题,结合一种样本标记相似度策略对样本置信度进一步评估,以减少噪声样本被引入的情况,实验结果显示,结合标记相似度进行样本挑选的协同训练算法较经典的协同训练算法在整体分类准确率、F1等指标上均有所提高。
【学位单位】:重庆邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP181;F274
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景及研究意义
1.2 研究对象
1.2.1 虚假评论定义
1.2.2 评论的有用度与可信度
1.3 研究现状及存在的问题
1.3.1 国内外研究现状
1.3.2 存在的问题
1.4 本文研究内容及组织结构
第2章 相关技术介绍
2.1 虚假评论识别方法
2.1.1 常用特征指标
2.1.2 分类模型
2.2 多视图学习方法
2.2.1 多视图数据
2.2.2 多视图子空间学习
2.2.3 协同训练算法
2.3 本章小结
第3章 基于PCA与协同训练的虚假评论识别方法
3.1 概述
3.2 模型概述
3.3 特征选择
3.3.1 特征集构建
3.3.2 主成分分析
3.4 协同训练算法
3.5 实验结果与分析
3.5.1 实验设置
3.5.2 主成分分析应用
3.5.3 基分类器选择
3.5.4 结果及分析
3.6 本章小结
第4章 基于典型相关分析的虚假评论特征提取方法
4.1 概述
4.2 识别流程
4.3 数据集构建
4.4 特征学习
4.4.1 特征指标集
4.4.2 多视图特征提取与融合
4.5 分类模型
4.6 实验结果与分析
4.6.1 实验设置
4.6.2 特征性能对比
4.6.3 CCA有效性验证
4.6.4 典型子空间维数的影响
4.7 本章小结
第5章 改进的基于协同训练的虚假评论识别方法
5.1 概述
5.2 协同训练算法简述
5.3 改进的协同训练算法
5.3.1 样本的标记相似度
5.3.2 构造协同训练算法
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 结果及分析
5.5 本章小结
第6章 结束语
6.1 主要工作
6.2 后续研究工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
本文编号:2831520
【学位单位】:重庆邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP181;F274
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景及研究意义
1.2 研究对象
1.2.1 虚假评论定义
1.2.2 评论的有用度与可信度
1.3 研究现状及存在的问题
1.3.1 国内外研究现状
1.3.2 存在的问题
1.4 本文研究内容及组织结构
第2章 相关技术介绍
2.1 虚假评论识别方法
2.1.1 常用特征指标
2.1.2 分类模型
2.2 多视图学习方法
2.2.1 多视图数据
2.2.2 多视图子空间学习
2.2.3 协同训练算法
2.3 本章小结
第3章 基于PCA与协同训练的虚假评论识别方法
3.1 概述
3.2 模型概述
3.3 特征选择
3.3.1 特征集构建
3.3.2 主成分分析
3.4 协同训练算法
3.5 实验结果与分析
3.5.1 实验设置
3.5.2 主成分分析应用
3.5.3 基分类器选择
3.5.4 结果及分析
3.6 本章小结
第4章 基于典型相关分析的虚假评论特征提取方法
4.1 概述
4.2 识别流程
4.3 数据集构建
4.4 特征学习
4.4.1 特征指标集
4.4.2 多视图特征提取与融合
4.5 分类模型
4.6 实验结果与分析
4.6.1 实验设置
4.6.2 特征性能对比
4.6.3 CCA有效性验证
4.6.4 典型子空间维数的影响
4.7 本章小结
第5章 改进的基于协同训练的虚假评论识别方法
5.1 概述
5.2 协同训练算法简述
5.3 改进的协同训练算法
5.3.1 样本的标记相似度
5.3.2 构造协同训练算法
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 结果及分析
5.5 本章小结
第6章 结束语
6.1 主要工作
6.2 后续研究工作
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果
【参考文献】
相关期刊论文 前1条
1 汪建成;严馨;余正涛;宋海霞;石林宾;;基于主题-对立情感依赖模型的虚假评论检测方法[J];山西大学学报(自然科学版);2015年01期
本文编号:2831520
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/2831520.html