微博垃圾评论识别方法研究
本文选题:微博垃圾评论 切入点:协同训练 出处:《广西师范大学》2017年硕士论文 论文类型:学位论文
【摘要】:垃圾评论是指用户发布的与博文无关的,或没有意义的,或蓄意发表的评论信息。早期常采用人工识别方法来识别,主要有基于验证码、审核机制两种;中期采用自动识别方法来识别,主要有基于关键词、基于链接数量和基于相关度阈值的方法;近期先采用基于规则方法过滤掉超链接、特殊字符等明显的显式垃圾评论,然后采用基于主题特征的方法结合分类器进行微博垃圾评论识别。目前常采用的微博数据获取方法主要有网络爬虫和微博开放平台API两种,前者速度慢,处理本文所需实验数据需要花费大量的时间,而后者的访问次数受到微博平台服务器的限制,两种方法获取实验数据都不是很理想。所以,本文提出了一种基于cookie与正则表达式的方法获取实验所需的数据,包括微博原文、微博作者信息和微博评论。本文设计采用以上两种常用方法和本文提出方法获取经过微博认证的用户名为王宝强发表的主题为离婚微博的评论数据,实验结果表明,本方法相较于两种常用方法,不仅操作相对简单,而且数据获取速度较快。微博及其评论的字符受到限制,最多只有140字,内容相对短小,微博的主题特征并不是特别明显,对微博中垃圾评论进行识别不能只考虑评论和微博之间的相关程度,因为单一的因素考虑会增加垃圾评论的误判率。因此,本文尝试使用协同训练方法来增强分类器性能,提出一种基于Co-Training协同训练的垃圾评论识别方法。对于微博原文和微博作者信息,本文进行预处理后得到的相关信息词组,与微博特有情感词汇以及大连理工信息检索实验室的情感词汇本体中情感强度大于5的情感词构成特征词汇库。对于微博评论,本文通过定义的基于规则识别方法过滤出显式垃圾评论,对于剩下的相关评论进行预处理后,一方面,得到相关评论词组,和构造的特征词汇库通过同义词词林相似度计算方法计算出结果,送入AdaBoost分类器,另一方面,进行特征提取,得到评论特征作为特征向量来训练SVM分类器。最后将两分类器通过基于微博垃圾评论的Co-Training协同训练算法进行协同训练,用训练好的模型来判断评论是否为垃圾评论。本方法在提高分类精度的同时,节省了大量的样本标注工作,通过实验将本文方法和其他两种典型的方法进行比较分析,结果表明本文提出的方法具备良好的可行性和有效性。
[Abstract]:Spam comment refers to the comment information issued by users which has nothing to do with blog posts or is meaningless or intentionally published. In the early stage manual identification is often used to identify the spam comments. There are two kinds of comment information based on verification code and verification mechanism. In the middle stage, automatic recognition method is adopted, which is mainly based on keyword, link number and relevance threshold. In recent years, rules based method is used to filter out hyperlinks, special characters and other obvious explicit spam comments. Then we use theme-based feature based method combined with classifier to recognize Weibo's garbage comment. At present, there are two kinds of common data acquisition methods, namely web crawler and Weibo open platform API, which are slow in speed. It takes a lot of time to process the experimental data required in this paper, and the number of access to the latter is limited by Weibo platform server. Neither method is ideal for obtaining experimental data. In this paper, a method based on cookie and regular expression is proposed to obtain the experimental data, including Weibo's original text. Weibo author's Information and Weibo comments. This paper designs to use the above two common methods and the method proposed in this paper to obtain the comment data on the subject of "divorcing Weibo" published by Wang Baoqiang, whose user name has been authenticated by Weibo. The experimental results show that, Compared with the two common methods, this method is not only relatively simple to operate, but also faster to obtain data. Weibo and his comments are limited in characters, at most 140 words, and the content is relatively short. The thematic features of Weibo are not particularly obvious. The identification of spam comment in Weibo can not only consider the correlation between comment and Weibo, because a single factor will increase the misjudgment rate of garbage comment. Therefore, this paper tries to use the cooperative training method to enhance the performance of classifier. A method of garbage comment recognition based on Co-Training cooperative training is proposed. With Weibo and the emotion vocabulary of Dalian University of Science and Technology Information Retrieval Laboratory, emotion words with more than 5 emotional intensity constitute the characteristic vocabulary database. In this paper, explicit spam comments are filtered out by the defined rule-based recognition method. After preprocessing the remaining related comments, on the one hand, the relevant comment phrases are obtained. And the constructed feature vocabulary database calculates the result by calculating the similarity degree of synonym forest, and sends it into the AdaBoost classifier, on the other hand, carries on the feature extraction, Finally, the two classifiers are trained by the Co-Training co-training algorithm based on Weibo spam comment, which is used as the feature vector to train the SVM classifier. This method not only improves the classification accuracy, but also saves a lot of sample labeling work. Through experiments, the method is compared with other two typical methods. The results show that the proposed method is feasible and effective.
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092;TP391.1
【相似文献】
相关期刊论文 前10条
1 ;真品三星软驱识别方法[J];电脑迷;2004年06期
2 施水才;俞鸿魁;吕学强;李渝勤;;基于大规模语料的新词语识别方法[J];山东大学学报(理学版);2006年03期
3 苏家洪;;试述人脸识别新技术及编辑识别方法[J];中国新技术新产品;2012年07期
4 高春庚;孙建国;;基于统计的人脸识别方法综述[J];安阳工学院学报;2012年04期
5 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于语义依存线索的事件关系识别方法研究[J];北京大学学报(自然科学版);2013年01期
6 马彬;洪宇;杨雪蓉;姚建民;朱巧明;;基于推理线索构建的事件关系识别方法[J];北京大学学报(自然科学版);2014年01期
7 吕冬梅,刘燕萍,李云凯;一个新的机械图纸识别方法[J];信息技术;2001年03期
8 刘志鹏,魏君;基于神经网络的集装箱编号识别方法的研究[J];中国包装工业;2002年09期
9 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
10 董世都;黄同愿;王华秋;王森;杨小帆;;半边人脸识别方法[J];计算机工程;2008年07期
相关会议论文 前10条
1 郑凯;;建立多维数据异常点识别方法的尝试[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年
2 张朋柱;韩崇昭;万百五;;智能决策支持系统中的问题识别方法与实现[A];全国青年管理科学与系统科学论文集(第2卷)[C];1993年
3 刘丽兰;刘宏昭;;时间序列模型的识别方法[A];制造技术自动化学术会议论文集[C];2004年
4 苗振伟;许勇;杨军;;超声波人脸识别方法研究[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
5 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 张茜;郑峥;亢一澜;王娟;仇巍;;基于海量实测数据的反演识别方法与盾构装备载荷的力学建模[A];中国力学大会——2013论文摘要集[C];2013年
7 赵锐;陈光发;;军事口令识别的Fuzzy方法探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 骆玉荣;刘建丽;史晓涛;;一种自动车窗识别方法的设计与实现[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 崔凯华;王国庆;方剑青;李红军;贾俊波;马超;赵烨;张东辉;;基于声模态分析的材料识别方法研究[A];现代振动与噪声技术(第九卷)[C];2011年
10 李洪东;梁逸曾;张志敏;;酵母蛋白组中原生肽识别方法的探索研究[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
相关重要报纸文章 前9条
1 陈春道;甲鱼优劣及雌雄的识别方法[N];北京科技报;2003年
2 庞席堂;假币的识别方法[N];中华合作时报;2003年
3 王修增;手机被盗号的6种识别方法[N];中国保险报;2003年
4 张侃;正品手机电池识别方法[N];通信产业报;2000年
5 潘 治;德国开发出癌症早期识别方法[N];中国中医药报;2003年
6 新华社记者 段世文;产权证识别方法[N];新华每日电讯;2001年
7 金亮;机器人的情感[N];中国医药报;2001年
8 黄璐;识别假火车票有绝招[N];山西经济日报;2004年
9 宗绍纯;如何识别是纯奶还是奶饮料?[N];国际商报;2003年
相关博士学位论文 前10条
1 赵国腾;跨座式单轨交通轨道梁表面裂纹识别方法研究[D];重庆大学;2015年
2 徐训;线性与非线性结构动力荷载识别方法及实验研究[D];哈尔滨工业大学;2015年
3 黄仕建;视频序列中人体行为的低秩表达与识别方法研究[D];重庆大学;2015年
4 张航;基于高光谱成像技术的皮棉中地膜识别方法研究[D];中国农业大学;2016年
5 吴翔;基于机器视觉的害虫识别方法研究[D];浙江大学;2016年
6 张莉莉;竞优特征的群识别方法及其应用[D];东北大学;2010年
7 陈绵书;计算机人脸识别方法研究[D];吉林大学;2004年
8 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
9 何光辉;四种人脸识别方法研究[D];重庆大学;2010年
10 佟丽娜;基于力学量信息获取系统的人体摔倒过程识别方法研究[D];中国科学技术大学;2011年
相关硕士学位论文 前10条
1 徐珂琼;基于视频的人脸识别方法研究[D];天津理工大学;2015年
2 彭姣丽;针对多表情的人脸识别方法研究[D];昆明理工大学;2015年
3 代秀丽;基于半监督判别分析的人脸识别方法研究[D];深圳大学;2015年
4 易磊;基于两阶段的交通标志识别方法研究[D];南京理工大学;2015年
5 李彦;基于小波变换的人脸识别方法研究[D];电子科技大学;2014年
6 田晓霞;运动想象EEG的识别方法及在上肢康复中的应用[D];北京工业大学;2015年
7 杨俊涛;基于分数谱时频特征的SAR目标检测与识别方法研究[D];电子科技大学;2014年
8 宋洪伟;基于模糊集合的汉语主观句识别方法研究与实现[D];黑龙江大学;2015年
9 贾博轩;基于手机传感器的人类复杂行为识别方法的研究[D];黑龙江大学;2015年
10 范玲;Link-11数据链信号的识别方法研究[D];西安电子科技大学;2014年
,本文编号:1643713
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1643713.html