基于集成学习的虚假评论检测

发布时间:2023-03-18 14:37
  随着互联网时代Web2.0技术的快速发展,网络用户可以自主的创造评论内容,其中包含非常丰富的关于网络产品的信息。不幸的是,由于利益关系,某些商家或个人发布了具有欺骗性的(虚假评论)评论以美化自身或贬低竞争对手,这些行为也对潜在客户的消费倾向产生了误导。由于网络评论具有强烈的领域相关性,不同的评论领域不光评论文本有很大区别,甚至评论行为也有很大不同。故针对不同领域的虚假评论,必须使用不同的检测方法。本文将网络评论分为针对产品的评论和针对店铺的评论。由于针对店铺类评论虚假性检测的方法较少,因而,分析店铺类虚假评论的特点,设计有效的检测方法是一个重要的研究课题。本文提出了一种基于集成学习的店铺类虚假评论检测方法。该方法总共有三个阶段,第一个阶段利用有标注的Yelp.com网站针对旅店、饭店的点评数据,做特征工程。本文将有关店铺类评论的特征分为两类,行为特征和文本特征,然后对特征做有效性分析。第二阶段,对数据集分别用交叉校验法和下采样的方法采样,构造训练集和测试集。第三阶段,分别使用集成学习中的随机森林和LightBGM算法与传统机器学习的决策树、K近邻和基于高斯分布的朴素贝叶斯算法对其评论做...

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 概述
    1.2 国内外研究现状
    1.3 论文的研究内容和创新
        1.3.1 研究内容
        1.3.2 主要创新
    1.4 论文的结构
第2章 相关技术介绍
    2.1 集成学习
    2.2 随机森林
    2.3 LightGBM
        2.3.1 基于梯度的单边采样(GOSS)
        2.3.2 独家功能捆绑(EFB)
        2.3.3 直方图算法
        2.3.4 Lightgbm的 Histogram(直方图)做差加速
        2.3.5 带深度限制的Leaf-wise的叶子生长策略
    2.4 决策树
        2.4.1 ID3 算法
        2.4.2 C4.5 算法
        2.4.3 CART树算法
    2.5 GaussianNB
    2.6 KNeighbors
    2.7 本章小结
第3章 特征工程研究
    3.1 数据集的获取及预处理
        3.1.1 数据集的获取
        3.1.2 评论数据集的预处理
        3.1.3 统计与分析评论数据集
    3.2 特征选取
        3.2.1 评论的文本特征
        3.2.2 评论的行为特征
    3.3 特征分析
        3.3.1 直方图与CDF曲线
        3.3.2 概率密度函数
    3.4 特征有效性分析
    3.5 本章小结
第4章 集成学习算法的性能评估及参数
    4.1 算法性能评价
        4.1.1 决策树算法与随机森林算法的性能评估
        4.1.2 LightGBM算法性能评估
    4.2 算法参数介绍
        4.2.1 决策树算法参数
        4.2.2 随机森林参数
        4.2.3 LightBGM参数影响
        4.2.4 KNN分类算法参数
    4.3 本章小结
第5章 实验及结果分析
    5.1 评论数据集度量指标
    5.2 特征标准化
    5.3 实验结果及分析
        5.3.1 交叉验证法
        5.3.2 下采样法
    5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和获得的科研成果
致谢



本文编号:3763318

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3763318.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b6c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com