论坛垃圾回帖的识别与过滤
本文关键词:论坛垃圾回帖的识别与过滤,由笔耕文化传播整理发布。
【摘要】:随着互联网的蓬勃发展和互联网向SoLoMo(社会化、本地化、移动化)转变的趋势日益显现,大型门户网站、论坛社区的互动量显著增加,而这些信息当中包含了发帖机和水军发布的大量灌水帖、垃圾广告甚至是违法信息,严重降低网民的访问体验,,也随之降低了论坛用户的活跃度和流量,同时还干扰了面向评论内容的数据挖掘和舆情监测工作。关于如何有效的识别并过滤评论中的垃圾信息,本文主要开展了如下工作: 首先进行了论坛数据的采集,通过设计网络爬虫,抓取论坛某一时段内的主帖和回帖及其相关的发帖信息(如发帖人、发帖时间、浏览量、回复量)等,并保存在本地数据库中。 其次要对论坛中的回帖进行较为准确的垃圾回帖的识别和过滤,就必须把握论坛领域内垃圾回帖的特点。本文结合网络语言的特点,通过大量浏览论坛回帖,分析总结了论坛领域中回帖人的行为特点和回帖内容的语言特征,并定义了论坛领域中垃圾回帖的类型。 本文采取了多层次过滤的方法,对不同类型的垃圾回帖使用了针对性较强、匹配度较高的过滤方法,提高了垃圾帖的识别率。在预处理阶段使用禁用词表和论坛灌水词词典识别过滤恶意回帖和灌水帖,然后对规范化后的变形垃圾回帖采用正则表达式匹配的方法,进一步过滤出部分广告宣传帖;使用添加了语义信息和位置信息的余弦相似度算法,过滤与主帖无关的回帖评论。 最后通过对各类垃圾回帖的过滤结果的统计分析,研究了发帖人的回帖倾向。经试验,利用本文的方法进行论坛回帖的识别和过滤的方法,能较好的识别出垃圾回帖,并且对发帖人的发帖倾向作出较为合理的划分和鉴定。
【关键词】:论坛 垃圾回帖 网络爬虫 多层次过滤 余弦相似度 回帖倾向
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-16
- 1.1 课题的研究背景及意义11-12
- 1.2 垃圾评论研究现状12-14
- 1.3 本文主要工作14
- 1.4 论文结构安排14-15
- 1.5 本章小结15-16
- 第2章 文本分类知识简介16-29
- 2.1 文本预处理16-18
- 2.1.1 文档切分17
- 2.1.2 文本分词17
- 2.1.3 去停用词17-18
- 2.2 文本表示模型18
- 2.3 文本特征提取18-21
- 2.3.1 词频方法(Word Frequency)19
- 2.3.2 文档频次方法(Document Frequency)19
- 2.3.3 互信息(Mutual Information)19-20
- 2.3.4 期望交叉熵(Expected Cross Entropy)20
- 2.3.5 信息增益方法(Information Gain)20
- 2.3.6 χ~2统计量方法20-21
- 2.4 特征权重21-23
- 2.4.1 特征权重算法21-22
- 2.4.2 影响特征提取的因素22-23
- 2.5 文本分类器23-25
- 2.5.1 朴素贝叶斯分类算法23-24
- 2.5.2 KNN 算法24-25
- 2.5.3 支持向量机25
- 2.6 分类结果的评估25-26
- 2.7 词语相似度26-28
- 2.7.1 词语相似度的定义26-27
- 2.7.2 《知网》的词语相似度计算27
- 2.7.3 文本相似度27-28
- 2.8 本章小结28-29
- 第3章 论坛回帖行为特点和语言特征的分析29-35
- 3.1 网络语言的特点分析29-30
- 3.2 论坛回帖行为特点分析30-32
- 3.3 论坛回帖语言特征的分析32-33
- 3.4 论坛领域内垃圾评论的定义33-34
- 3.5 本章小结34-35
- 第4章 Web 数据自动采集系统35-40
- 4.1 实验数据来源35
- 4.2 系统设计35-37
- 4.3 具体实现步骤37-39
- 4.4 本章小结39-40
- 第5章 多层次识别过滤论坛垃圾回帖系统40-50
- 5.1 论坛回帖数据预处理40-41
- 5.2 多层次识别过滤论坛垃圾回帖系统41-49
- 5.3 本章小结49-50
- 第6章 实验结果分析与应用50-55
- 6.1 实验结果分析50-52
- 6.2 发帖人回帖倾向性分析52-54
- 6.3 本章小结54-55
- 第7章 总结与展望55-57
- 7.1 课题总结55
- 7.2 工作展望55-57
- 参考文献57-59
- 致谢59-60
- 攻读学位期间取得的科研成果60
【参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
3 王洋;刘忠;;贝叶斯算法实现文本分类器[J];大众科技;2011年02期
4 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
5 马如林;蒋华;张庆霞;;基于贝叶斯方法和信息指纹的博客评论过滤[J];计算机工程与应用;2008年24期
6 何海江;凌云;;由Logistic回归识别Web社区的垃圾评论[J];计算机工程与应用;2009年23期
7 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
8 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
9 刘娟;;网络语言的语法特征分析[J];内江科技;2009年10期
10 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
中国博士学位论文全文数据库 前2条
1 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
2 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
本文关键词:论坛垃圾回帖的识别与过滤,由笔耕文化传播整理发布。
本文编号:498839
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/498839.html