基于LDA与PW-Word2vec的虚假评论识别方法研究
发布时间:2021-06-02 21:06
信息科技的成熟为电子商务的蓬勃发展创建了条件,相对于线下实体店购物,越来越多的消费者更倾向于方便快捷的线上网络购物。然而虚假评论的存在却使得消费者无法对商品进行更加客观的评估,侵害了消费者权益,同时也损害了部分诚信商家的利益。因此,本文基于Yelp在线评论数据集,使用LDA进行失衡处理,以及使用PW(Probability Weight)-Word2vec构造评论特征向量,提出了一种基于LDA和PW-Word2vec的虚假评论检测模型,主要研究内容如下:(1)训练词向量字典:基于酒店和餐饮领域数据,运用Word2vec模型完成了词向量字典的训练。(2)构建LDA+Word2vec虚假评论检测模型:针对实验数据中真假评论数据量的不均衡问题,本文提出了LDA抽样失衡处理的方法,使得真假评论数据量达到了一致,而后对该实验数据进行评论特征向量的提取,构建LDA+Word2vec虚假评论检测模型。(3)构建LDA+PW-Word2vec虚假评论检测模型:LDA+Word2vec建模过程中,存在着评论文本信息损失的问题,基于此,本文又进一步提出了LDA+PW-Word2vec模型进行虚假评论的检测...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
webofscience上spam类论文数量趋势图
W(t+W(t+t)图 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分类算法,Support Vector Machine)[41]是一个二分类模型,在间隔最大化的条件下得以分割。SVM 可以归为,如图 2.4;2. 软间隔最大线性 SVM;3. 依据核函型的 SVM 在理论求解中,都需要转化为凸二次规划
共计评论 788469 条。数据集中虚假评论标识为 Y,真实评论标识为 N。然而数据集中拥有大量带有 NR 和 YR 标识的数据,它们是评估数据,不具备权威性,无法用来进行虚假评论检测。故而在 Mukherjee 等人[10]的文章中,仅采用了 Y 和 N 标识的数据集,共计 64445条,其中虚假评论为 8035 条,真实评论为 56410 条。在本文的实验中,将使用总的数据集即788469 条评论内容进行词向量字典的训练,采用 Mukherjee 等人[10]的文章中所用的 64445 条真假评论数据集进行虚假评论检测的方法研究。表 3.1 是对实验中用到的 Yelp 数据集的统计,图 3.1 为部分原始数据集的截图。本文的实验主要针对语义研究,故而仅使用其中的评论内容 reviewContent 属性和真假标识 flagged 属性。表 3. 1 数据集统计表Table 3.1 Dataset statistics数据集 虚假评论 真实评论 总的评论餐厅和酒店评论 8035 56410 64445
【参考文献】:
期刊论文
[1]基于Word2Vec和LDA主题模型的Web服务聚类方法[J]. 肖巧翔,曹步清,张祥平,刘建勋,李晏新闻. 中南大学学报(自然科学版). 2018(12)
[2]基于word2vec和LDA的文本主题[J]. 徐守坤,周佳,李宁,石林. 计算机工程与设计. 2018(09)
[3]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[4]基于主题模型和情感分析的垃圾评论识别方法研究[J]. 金相宏,李琳,钟珞. 计算机科学. 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陈磊,李俊. 电子技术. 2017(07)
[6]Word2vec的核心架构及其应用[J]. 熊富林,邓怡豪,唐晓晟. 南京师范大学学报(工程技术版). 2015(01)
硕士论文
[1]领域关键词抽取:结合LDA与Word2Vec[D]. 韦强申.贵州师范大学 2016
[2]基于LDA和Word2Vec的推荐算法研究[D]. 董文.北京邮电大学 2015
本文编号:3210752
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
webofscience上spam类论文数量趋势图
W(t+W(t+t)图 2. 3 Skip-gram 模型Figure2.3 Skip-gram model2.3 分类算法,Support Vector Machine)[41]是一个二分类模型,在间隔最大化的条件下得以分割。SVM 可以归为,如图 2.4;2. 软间隔最大线性 SVM;3. 依据核函型的 SVM 在理论求解中,都需要转化为凸二次规划
共计评论 788469 条。数据集中虚假评论标识为 Y,真实评论标识为 N。然而数据集中拥有大量带有 NR 和 YR 标识的数据,它们是评估数据,不具备权威性,无法用来进行虚假评论检测。故而在 Mukherjee 等人[10]的文章中,仅采用了 Y 和 N 标识的数据集,共计 64445条,其中虚假评论为 8035 条,真实评论为 56410 条。在本文的实验中,将使用总的数据集即788469 条评论内容进行词向量字典的训练,采用 Mukherjee 等人[10]的文章中所用的 64445 条真假评论数据集进行虚假评论检测的方法研究。表 3.1 是对实验中用到的 Yelp 数据集的统计,图 3.1 为部分原始数据集的截图。本文的实验主要针对语义研究,故而仅使用其中的评论内容 reviewContent 属性和真假标识 flagged 属性。表 3. 1 数据集统计表Table 3.1 Dataset statistics数据集 虚假评论 真实评论 总的评论餐厅和酒店评论 8035 56410 64445
【参考文献】:
期刊论文
[1]基于Word2Vec和LDA主题模型的Web服务聚类方法[J]. 肖巧翔,曹步清,张祥平,刘建勋,李晏新闻. 中南大学学报(自然科学版). 2018(12)
[2]基于word2vec和LDA的文本主题[J]. 徐守坤,周佳,李宁,石林. 计算机工程与设计. 2018(09)
[3]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[4]基于主题模型和情感分析的垃圾评论识别方法研究[J]. 金相宏,李琳,钟珞. 计算机科学. 2017(10)
[5]基于LF-LDA和Word2vec的文本表示模型研究[J]. 陈磊,李俊. 电子技术. 2017(07)
[6]Word2vec的核心架构及其应用[J]. 熊富林,邓怡豪,唐晓晟. 南京师范大学学报(工程技术版). 2015(01)
硕士论文
[1]领域关键词抽取:结合LDA与Word2Vec[D]. 韦强申.贵州师范大学 2016
[2]基于LDA和Word2Vec的推荐算法研究[D]. 董文.北京邮电大学 2015
本文编号:3210752
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3210752.html