当前位置:主页 > 经济论文 > 国际贸易论文 >

电子商务中虚假评论检测研究

发布时间:2020-07-29 12:32
【摘要】:评论数据作为电商平台上的重要信息数据,在商业活动中发挥着重要的作用,但大量的虚假评论的存在,给消费者和商业组织带来错误导向,造成巨大损失,因此,对其进行检测和控制具有重要意义。电商平台存在大量的评论数据,面对如此多的评论数据,已有的虚假评论检测方法存在一定局限性。电商平台上商品种类繁多,涉及到的评论数据类型纷繁复杂,基于内容特征的方法采用的分类特征通常具有领域依赖性,分类性能依赖大量正确的领域标注评论数据,泛化能力差。基于行为分析的方法虽然不需要标注评论数据,但其依赖特定的用户评论行为,识别率不高。先前工作集中于启发式策略和传统的全监督学习算法。最近研究表明,人类无法通过先验知识有效识别虚假评论,手工标注的数据集必定存在一定数量的误例,因此简单使用传统的全监督学习算法识别虚假评论并不合理,其中容易被错误标注的样例称为间谍样例,如何确定这些样例的类别标签将直接影响分类器的性能。针对以上这些问题,本文提出面向电商平台虚假评论的系统性的检测方法。论文的主要工作由三部分组成,第一,提出了一种评论文本相似性的度量算法。针对传统文本相似性度量方法准确率不高的问题,本文利用评论文本的内容组织特征,构建评论文本树形结构,将其相似性度量分解为对应树各层之间的相似性度量,从而使得每层相似度的度量对象都为同类型的词语,进而分别采用对应的相似性度量方法计算各层的相似性,最后再对各层相似度按照权重融合得到整体的相似度,在真实数据集上的实验结果表明本文方法较其它常见度量方法更加有效,准确率更高。第二,提出一种动静态特征融合的虚假评论检测算法。针对现有虚假评论检测方法未充分利用用户历史行为中蕴含的动态信息这一问题,本文首先利用时序分析模型从这些动态信息中挖掘能够刻画用户行为的动态特征;其次,融合这些动态特征与用户层面静态特征发现可疑用户,并将用户可疑概率传播至用户所发表评论,得到评论可疑概率;最后,结合评论可疑概率与评论层面静态特征,使用学习策略训练高性能的分类器,实现虚假评论的检测,在真实数据集上的实验表明,本文方法的性能优于现有方法。第三,提出一种面向电商平台的虚假评论目标商品的识别算法。首先,从无标注数据集中识别出少量可信度较高的负例。其次,通过整合LDA(Latent Dirichlet allocation)算法和K-means算法,分别计算出多个代表性的正例和负例,然后基于狄利克雷过程混合模型(Dirichlet process mixture model,DEMM)对所有间谍样例进行聚类,混合种群性和个体性策略来确定间谍样例的类别标签。最后,多核学习算法被用来训练最终的分类器,数值实验证实了所提算法的有效性,超过当前的基准。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F713.36
【图文】:

论文,准确性


研究内容及组织框架

最大边缘,边缘类,分类能力,超平面


决策边界的边缘

结构图,检测方法,结构图,动态特征


基于融合特征的虚假评论检测方法结构图

【相似文献】

相关期刊论文 前10条

1 史战红;连玉平;巩增泰;;基于包含度的粗糙集间的相似性度量[J];数学教学研究;2008年02期

2 李涛;汪光阳;;标准相似性度量及其应用[J];山西师范大学学报(自然科学版);2016年04期

3 张豪;陈黎飞;郭躬德;;基于符号熵的序列相似性度量方法[J];计算机工程;2016年05期

4 仝朝阳,石教英;一种关于布尔模式的相似性度量及其应用[J];计算机研究与发展;1996年08期

5 韩建超;史忠植;;类比推理与学习的研究[J];计算机工程与应用;1988年01期

6 林燕清;傅仰耿;;基于改进相似性度量的扩展置信规则库规则激活方法[J];中国科学技术大学学报;2018年01期

7 贺玲;蔡益朝;杨征;;高维数据的相似性度量研究[J];计算机科学;2010年05期

8 江诗锋;何振峰;;一种基于权重的时间序列相似性度量[J];计算机应用与软件;2010年09期

9 段立娟,高文,林守勋,马继涌;图像检索中的动态相似性度量方法[J];计算机学报;2001年11期

10 李年攸;;基于等价类的图像相似性度量[J];三明学院学报;2006年04期

相关会议论文 前10条

1 李新光;郑君君;祝一薇;刘建军;夏胜平;谭立球;;基于属性图模型的图像相似性度量[A];第十五届全国图象图形学学术会议论文集[C];2010年

2 白翔;;基于多特征流形结构互补性挖掘的相似性度量融合方法[A];2015年中国自动化大会摘要集[C];2015年

3 李彬彬;罗乐;;基于信源学的光谱相似性度量方法的比较研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年

4 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年

5 周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年

6 兰妥;江弋;张东站;;基于ESAX表示的时间序列相似性度量[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

7 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 何昕;谢志鹏;;基于简单树匹配算法的Web页面结构相似性度量[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

9 杨明;杨萍;吉根林;;分布式环境下的隐私保持数据库相似性度量[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

10 罗阳;赵伟;;相似性度量研究及最优相似系数[A];中国气象学会2008年年会天气预报准确率与公共气象服务分会场论文集[C];2008年

相关博士学位论文 前10条

1 迟荣华;不确定时间序列相似性非参数度量方法研究[D];哈尔滨工程大学;2018年

2 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年

3 王鹏;基于稳定层次空间形态的道路网匹配[D];中国地质大学;2017年

4 朱进;基于运动特征的轨迹相似性度量研究[D];南京师范大学;2015年

5 陈晓;网络中顶点间相似性度量方法研究[D];燕山大学;2017年

6 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年

7 李海林;时间序列数据挖掘中的特征表示与相似性度量方法研究[D];大连理工大学;2012年

8 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年

9 张键;面向人脸识别的图像表示和分类研究[D];南京理工大学;2015年

10 晏实江;基于DEM的地形尺度相似性度量方法研究[D];南京师范大学;2012年

相关硕士学位论文 前10条

1 赵雅菲;电子商务中虚假评论检测研究[D];河北大学;2019年

2 胡晓静;基于特征点的颅面相似性度量算法研究[D];西北大学;2018年

3 王泽源;考虑用户满意度的云服务排序推荐方法研究[D];合肥工业大学;2018年

4 刘国明;基于相似性度量的行人重识别算法研究[D];广州大学;2018年

5 周紫桑;基于链接分析的期刊引用网络节点相似性度量[D];清华大学;2017年

6 王盼;基于过程主干约束的轨迹相似性度量方法与应用[D];南京航空航天大学;2018年

7 刘泉菲;多尺度空间目标相似性度量研究[D];长沙理工大学;2018年

8 李玲;基于句子相似性度量的中文自动响应问答系统的研究与实现[D];陕西师范大学;2017年

9 黄义棚;基于相似性度量的人脸性别识别技术研究[D];北京邮电大学;2018年

10 邓楠洁;基于数据依赖的高维大数据相似性度量方法研究[D];北京邮电大学;2018年



本文编号:2773964

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2773964.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1faf4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com