基于深度学习的虚假评论识别方法研究
本文选题:虚假评论识别 + 深度学习 ; 参考:《哈尔滨工业大学》2017年硕士论文
【摘要】:随着互联网和移动终端的发展,电子商务成为日常生活中不可或缺的部分,随之而来的是商品信息、用户评论数量的飞速增长。其中用户的评论在电子商务中起到至关重要的作用,因为在网络购物中用户将商品评论作为衡量商品质量的参考资源,会左右消费者的决定。所以出于利益商家会雇佣专业写手为自家商品撰写好评或为竞争对手撰写差评,对电子商务平台的生态发展造成了严重的影响。现有研究表明,人工识别这类虚假评论的水平较低。为了有效识别这类评论,一些学者使用基于浅层、显性语义特征的方法,取得了一定成果。而深度学习方法可以挖掘深层次的语义特征,在识别虚假评论任务上,本文将深度学习方法作为研究重点。本文研究内容归纳为以下四点:(1)基于传统模型方法的虚假评论识别。在传统方法模型中采用了四种分类器,针对虚假评论语料的特点,提出文本特征、情感倾向性特征、心理学特征、句法相关特征四大类特征。采用了多模型投票策略,实验效果超过基线方法。(2)半监督学习算法扩充语料。针对虚假评论语料匮乏的情况,首先利用爬虫程序爬取评论资源,然后采用一种半监督学习算法,根据少量已标注的语料,从爬虫数据集中抽取置信度高的点评加入语料库。(3)基于深度学习模型的虚假评论识别。在虚假评论识别任务上,使用词向量作为输入,在LSTM、双向LSTM与CNN模型上进行实验,并尝试上述模型的融合实验。实验结果表明CNN与LSTM混合模型的效果最佳,准确率较基线方法提升2个百分点。(4)融合Attention机制的虚假评论识别。本文实现了两种Attention机制,分别为前馈式注意力模型和基于上下文的注意力模型。注意力机制对句子中单词的重要性进行区分,利用注意力权重得到更加准确的句子表示。将注意力机制应用在LSTM模型和LSTM与CNN的混合模型,进一步提升了准确率。
[Abstract]:With the development of the Internet and mobile terminals, e-commerce has become an indispensable part of daily life, followed by the rapid increase in the number of commodity information and user comments. Users' comments play an important role in electronic commerce, because in online shopping, users use commodity reviews as a reference resource to measure the quality of goods, which will influence consumers' decisions. Therefore, for the benefit of the business will hire professional writers for their own products to write praise or for competitors to write bad comments, e-commerce platform ecological development has a serious impact. Existing studies show that the level of manual identification of such false comments is low. In order to identify this kind of comment effectively, some scholars have made some achievements by using the method based on shallow and dominant semantic features. However, the deep learning method can mine the deep semantic features. In the task of identifying false comments, this paper focuses on the depth learning method. The research content of this paper is summarized as follows: 4 points: 1) false comment recognition based on traditional model method. Four kinds of classifiers are used in the traditional method model. According to the characteristics of false comment corpus, the text feature, emotional tendency feature, psychological feature and syntactic correlation feature are proposed. A multi-model voting strategy is adopted, and the experimental results exceed the baseline method. 2) the semi-supervised learning algorithm expands the corpus. In view of the shortage of false comment corpus, the crawler program is used to crawl the comment resource, and then a semi-supervised learning algorithm is adopted, according to a small number of tagged corpus. Extracted from reptile data sets, comments with high confidence are added to Corpus. 3) false comment recognition based on depth learning model. In the task of false comment recognition, we use word vector as input, experiment on LSTM, bidirectional LSTM and CNN model, and try the fusion experiment of the above model. The experimental results show that the mixed model of CNN and LSTM has the best effect, and the accuracy is 2% higher than the baseline method. In this paper, two kinds of Attention mechanisms are implemented, which are feedforward attention model and context-based attention model. The attention mechanism distinguishes the importance of the words in a sentence and uses the attention weight to obtain a more accurate sentence representation. The attention mechanism is applied to the LSTM model and the mixed model of LSTM and CNN, which further improves the accuracy.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李明;杨艳屏;占惠融;;基于局部聚类与图方法的半监督学习算法[J];自动化学报;2010年12期
2 杨南海;黄明明;赫然;王秀坤;;基于最大相关熵准则的鲁棒半监督学习算法[J];软件学报;2012年02期
3 陈志民;薛月菊;杨敬锋;叶志婵;陈剑虹;;半监督学习算法在农用地分等中的应用[J];计算机工程与设计;2008年23期
4 李凯;马红艳;杨楠;陈新勇;;半监督学习算法的收敛性及其在人脸识别中的应用[J];河北大学学报(自然科学版);2011年01期
5 缪志敏;胡谷雨;赵陆文;陈彦德;;一种基于支持向量数据描述的半监督学习算法[J];解放军理工大学学报(自然科学版);2010年01期
6 陈锦秀;姬东鸿;;基于图的半监督关系抽取[J];软件学报;2008年11期
7 任亚峰;姬东鸿;尹兰;;基于半监督学习算法的虚假评论识别研究[J];四川大学学报(工程科学版);2014年03期
8 许震;沙朝锋;王晓玲;周傲英;;基于KL距离的非平衡数据半监督学习算法[J];计算机研究与发展;2010年01期
9 刘德山;孙丽;闫德勤;;一种基因数据分析的半监督学习算法[J];微型机与应用;2014年12期
10 王江;张惠源;李芳;张兵文;李鹏;;脑机接口中半监督学习算法研究[J];电子测量技术;2014年05期
相关会议论文 前10条
1 沈乐君;;基于混合模型的多目标实时跟踪算法[A];2013体育计算机应用论文集[C];2013年
2 纪琳;黄震宇;;中频振动混合模型理论的应用局限性分析[A];现代振动与噪声技术(第九卷)[C];2011年
3 汪传建;李晓光;王大玲;于戈;;一种基于混合模型的文本分类器的研究与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 付丽丽;王瑞芳;;我国篮球硕士学位论文的共词聚类分析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 崔玉平;董筱文;;教育经济与管理专业硕士学位论文的内容分析[A];江苏省高等教育学会教育经济研究委员会成立大会暨第一届江苏省教育经济学术年会论文集[C];2013年
6 郑凯;;建立多维数据异常点识别方法的尝试[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年
7 张朋柱;韩崇昭;万百五;;智能决策支持系统中的问题识别方法与实现[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
8 刘丽兰;刘宏昭;;时间序列模型的识别方法[A];制造技术自动化学术会议论文集[C];2004年
9 苗振伟;许勇;杨军;;超声波人脸识别方法研究[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
10 徐斌;马尽文;;一种柯西混合模型上梯度型BYY和谐学习算法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
相关重要报纸文章 前10条
1 张莹;360安全中心号召网友签名要求CNN向中国人民道歉[N];中国新闻出版报;2008年
2 资深媒体人士 安替;谨记CNN远不只是放国家形象广告[N];东方早报;2010年
3 卞普易;韩国世界首个CNN咖啡馆开业[N];中国食品安全报;2011年
4 孙浩;从CNN乌龙看传统媒体的危与机[N];新华每日电讯;2013年
5 国际问题专家 华益声;CNN沦为暴力恐怖帮凶[N];人民日报海外版;2013年
6 新华社记者 刘顺 操风琴;中东CNN探访“半岛”电视台[N];新华每日电讯;2002年
7 资深媒体人士 安替;CNN新闻全球化就是新闻美国化[N];东方早报;2009年
8 记者 刘倩;全球知名媒体CNN将全程报道论坛盛况[N];桂林日报;2012年
9 记者 姜微 陆文军;CNN:中国驱动全球汽车产业[N];新华每日电讯;2009年
10 Julie Battilana Matthew Lee John Walker Cheryl Dorsey 翻译 谭立立;营利与非营利组织的理想混合模型(下篇)[N];21世纪经济报道;2012年
相关博士学位论文 前10条
1 杨南海;鲁棒半监督学习算法及在生物统计中的应用研究[D];大连理工大学;2015年
2 邓超;基于“合作—参与”计算认知模型的半监督学习算法研究与应用[D];哈尔滨工业大学;2009年
3 熊杰;基于混合模型的肿瘤组学数据聚类研究[D];湖南师范大学;2016年
4 李斌;概率混合模型的研究及其应用[D];复旦大学;2009年
5 王先文;基于偏斜t混合模型的流式数据细胞类群自动识别算法研究[D];中国人民解放军军事医学科学院;2015年
6 李少亭;带有辅助信息的混合模型及其应用[D];东北师范大学;2014年
7 陈思宝;基于t-混合模型和扩展保局投影的聚类与降维方法研究[D];安徽大学;2006年
8 赵国腾;跨座式单轨交通轨道梁表面裂纹识别方法研究[D];重庆大学;2015年
9 徐训;线性与非线性结构动力荷载识别方法及实验研究[D];哈尔滨工业大学;2015年
10 黄仕建;视频序列中人体行为的低秩表达与识别方法研究[D];重庆大学;2015年
相关硕士学位论文 前10条
1 张恒;基于深度学习的虚假评论识别方法研究[D];哈尔滨工业大学;2017年
2 万小强;短信自动分类系统的研究与实现[D];东华大学;2017年
3 李玉娇;半监督学习算法的鲁棒性研究[D];华南理工大学;2016年
4 宿洪禄;结构半监督学习算法及其应用研究[D];苏州大学;2010年
5 占惠融;基于图的半监督学习算法研究[D];华中科技大学;2009年
6 魏征丽;基于图半监督学习算法的研究及应用[D];西安电子科技大学;2012年
7 徐寒香;一种基于李群的半监督学习算法及应用研究[D];苏州大学;2009年
8 徐培培;基于LNP的半监督学习算法[D];西安电子科技大学;2009年
9 常瑜;基于Tri-training的半监督学习算法研究[D];山西大学;2012年
10 王轶初;基于集成学习的半监督学习算法研究[D];西安电子科技大学;2011年
,本文编号:2000851
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2000851.html