基于可信度传递的商品垃圾评论检测研究
本文选题:文本挖掘 + 垃圾评论检测 ; 参考:《重庆大学》2016年硕士论文
【摘要】:随着互联网技术的发展,网络已经对人们表达自己和与他人互动的方式产生了巨大的影响。在线评论在今天的电子商务中起到至关重要的作用,消费者常常会通过网络查看商品或者商店的评论信息,然后做出购买决策。但是由于网络中存在着大量的垃圾评论,消费者会被误导甚至购买质量低下的商品,严重影响购物体验,商家也会因为恶意评论而名誉受损。因此,近年来垃圾评论的智能化检测已成为一个研究热点。本文系统地总结并论述了垃圾评论检测领域的发展现状,分析了该领域相关算法和技术。针对传统基于人工标注的算法性能评价体系工作量大、不利于计算机处理等问题,本文提出使用两个识伪度指标来度量检测算法的性能。主要思想是比较检测前后的数据样本在推荐系统准确度和评论正反馈率上的差异,这种方法为观察垃圾评论检测的效果提供了新的视角,可以作为传统评价体系的补充。本文使用可信度得分作为度量评论、评论者、商品可信程度的指标,通过分析影响评论可信度的关键因素,从中抽取了评论文本的长度、属性覆盖率、时间分布三个特征计算评论初始可信度得分。此外,本文在属性词典的提取中巧妙的将词频统计方法与主题词模型进行融合,并使用成熟的第三方工具word2vec构建提取模型,实验表明,本算法能获取更加丰富而准确的属性词典。受评论关系图和Web事实发现的启发,本文发现了评论、评论者、商品三者之间可信度的相互影响关系,而之前的研究者多把三者作为单一研究对象,忽略了它们之间的关系。因此本文提出了一种基于可信度传递的垃圾评论检测算法,该算法将评论、评论者、商品抽象成图模型,以评论初始可信度得分为基础,以三者构成的网络为线索,构建计算评论、评论者、商品可信度得分的模型,修正评论可信度得分,排除可信度得分小于可信阈值的评论。实验表明,此算法在准确率和召回率上都有一定的提升。
[Abstract]:With the development of Internet technology, the Internet has had a great impact on the way people express themselves and interact with others. Online reviews play a crucial role in today's e-commerce, and consumers often view reviews of goods or stores online and make purchase decisions. However, due to the existence of a large number of spam comments on the Internet, consumers will be misled or even buy goods of low quality, which will seriously affect the shopping experience, and the reputation of merchants will also be damaged by malicious comments. Therefore, the intelligent detection of spam reviews has become a research hotspot in recent years. This paper systematically summarizes and discusses the development of garbage comment detection field, and analyzes the relevant algorithms and technologies in this field. In order to solve the problem that the traditional performance evaluation system based on manual annotation is difficult to deal with by computer, this paper proposes to measure the performance of the detection algorithm by using two false recognition indexes. The main idea is to compare the difference between the accuracy of recommendation system and the positive feedback rate of comments before and after detection. This method provides a new perspective for observing the effect of garbage comment detection and can be used as a supplement to the traditional evaluation system. In this paper, the credibility score is used as an index to measure the credibility of a comment. By analyzing the key factors affecting the credibility of the comment, the author extracts the length of the comment text and the coverage of the attribute, by analyzing the key factors affecting the credibility of the comment. Three features of time distribution are used to calculate the initial reliability score of comments. In addition, in the extraction of attribute dictionary, this paper skillfully combines the word frequency statistics method with the thematic word model, and uses the mature third-party tool word2vec to construct the extraction model. The experiment shows that, This algorithm can obtain more abundant and accurate attribute dictionary. Inspired by the review diagram and the fact finding of Web, this paper finds the relationship between the credibility of the commentary, the reviewer and the commodity, but most of the previous researchers regarded the three as a single object of study, ignoring the relationship between them. Therefore, this paper proposes a spam comment detection algorithm based on credibility transfer. The algorithm abstracts comments, reviewers and commodities into graph models, based on the initial credibility score of comments, and takes the network composed of the three as a clue. A model for calculating the credibility of comments, reviewers and commodities is constructed, and the reliability score of comments is revised to exclude those whose credibility score is less than the trust threshold. Experiments show that the algorithm can improve the accuracy and recall rate.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
2 邢鸿飞;;文本挖掘口角升温[J];世界科学;2013年05期
3 蒋良孝,蔡之华;文本挖掘及其应用[J];现代计算机(专业版);2003年02期
4 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期
5 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期
6 黄维金;顾益军;;刑侦档案文本挖掘系统平台中的文本精炼初探[J];中国人民公安大学学报(自然科学版);2006年02期
7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
8 韩春;田大钢;;对股票市场信息的文本挖掘[J];中国高新技术企业;2008年23期
9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期
10 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
相关会议论文 前10条
1 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
2 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
4 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
6 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年
7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
相关重要报纸文章 前4条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
相关博士学位论文 前10条
1 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年
2 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年
3 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年
4 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
10 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
相关硕士学位论文 前10条
1 张馨允;基于Spark的Web文本挖掘系统的研究与实现[D];吉林大学;2016年
2 王钊;基于Hadoop的文本挖掘研究与应用[D];广东工业大学;2016年
3 黄建澍;面向人大代表议案处理的文本挖掘系统的设计与实现[D];中国科学院大学(工程管理与信息技术学院);2016年
4 徐奇钊;基于文本挖掘的文本情绪分类[D];云南财经大学;2016年
5 邹运怀;基于文本挖掘的道岔故障分类研究[D];北京交通大学;2016年
6 王萍;基于Web文本挖掘的电子商务专业人才市场需求研究[D];重庆工商大学;2016年
7 盛华;聚类分析在文本挖掘中的应用与研究[D];江南大学;2016年
8 刘超;业界专家的媒体发言对公司股价影响的分析[D];上海师范大学;2016年
9 吴亚宇;基于文本挖掘的年报情感与上市公司业绩的关系研究[D];中国地质大学(北京);2016年
10 秦成磊;Web文本挖掘若干关键问题研究及其在机电产品在线评测中的应用[D];上海应用技术大学;2016年
,本文编号:1789533
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1789533.html