当前位置:主页 > 社科论文 > 图书档案论文 >

基于SVM的网络舆情文本分类研究

发布时间:2017-04-30 07:02

  本文关键词:基于SVM的网络舆情文本分类研究,,由笔耕文化传播整理发布。


【摘要】:随着微博、论坛的不断发展,越来越多的人喜欢在网络上发表自己的观点与看法,网络事件层出不穷。网络舆情成为社会舆情的主要反映方式和重点关注对象。但是,面对海量的、快速更新的网络信息和复杂的网络信息形式,相关部门难以有效进行收集和分类。因此,对网络舆情进行自动分类具有现实的需要。本文从网络舆情的相关概念出发,介绍了网络舆情数据的特点与类型,并深入分析网络舆情分类主体的特点。在研究分析网络舆情文本特点及规律的基础上,研究现有的各种主题分类技术,如:向量空间模型、特征选择方法、网络文本分类方法、评价指标、权重计算方法。其中,重点研究互信息、信息增益、CHI统计、交叉熵、证据权值等特征选择算法以及贝叶斯算法、K邻近值、支持向量机算法等文本分类算法。本文按照最近几年舆情热点构建了网络舆情风险分类体系,分为国家安全、政府执政、社会稳定、金融经济、日常生活、资源环境、精神文明、无风险等八大类。为验证分类算法的准确性,必须建立自己的舆情语料库,而国内在语料库方面尤其是舆情方面极为欠缺,因此需要人工分类。通过对2012年3月份的天涯网帖进行加工整理,建立了基于天涯论坛的网络舆情语料库。本文在深入研究支持向量机的算法,重点介绍现有的SVM算法后,提出了一种基于BT-SVM的分类算法。分析比较了目前研究较多的几种多类支持向量机算法,并对其算法进行详细描述,比较它们的优缺点及性能。重点研究了基于二叉树的多类SVM分类算法,其类间距离定义方法采用马氏距离。为验证该算法分类的效率和准确度,本文设计和实现了网络舆情文本分类系统,该系统分为五个功能模块,分别为预处理模块、特征降维模块、权重计算模块、文本分类模块与结果评估模块。其中,预处理的分词运用中科院的ICTCLAS系统,特征降维模块实现了互信息、信息增益、CHI统计、证据权值、交叉熵等多种特征选择方法,能够提高特征项选择的精度。权重计算模块在对TF*IDF和TF*IG及TF*IDF*IG进行研究后,实现了这三种方法。在文本分类模块中实现了SVM算法。在结果评估模块中,使用查准率和查全率对分类结果进行评测,并可对8个类别分别进行评测。结果评估模块可显示分类结果并与人工分类结果进行对比。最后,从查准率和查全率两个方面,对网络舆情分类系统进行测试。把天涯论坛语料库语料作为样本集,对人工分类所得的样本集进行测试,测试结果准确率达到94.88%。通过实验验证了特征选择、权重计算以及SVM分类算法的有效性和可行性。通过设置不同的特征选择方式、方法及权重方法分别进行实验,得出查准率、查全率后进行对比,选择各种算法中最优的方式,分别为:特征选择方式选取全局方式,特征选择方法选取期望交叉熵,权重计算方法选取TF*IDF*IG。
【关键词】:支持向量机 文本分类 网络舆情 天涯语料库
【学位授予单位】:曲阜师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G254
【目录】:
  • 摘要3-5
  • Abstract5-9
  • 第1章 绪论9-13
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-11
  • 1.2.1 网络舆情研究现状10
  • 1.2.2 文本自动分类研究现状10-11
  • 1.3 本文研究内容与组织结构11-13
  • 第2章 网络舆情文本分类基础研究13-30
  • 2.1 网络舆情与自然语言处理的基础理论13-18
  • 2.1.1 网络舆情的概念及特点13-15
  • 2.1.2 自然语言处理相关研究15-16
  • 2.1.3 网络舆情分类对象的特点分析16-18
  • 2.2 网络舆情文本分类技术18-28
  • 2.2.1 主题分类模型18-19
  • 2.2.2 文本特征选取19-20
  • 2.2.3 文档表示20-22
  • 2.2.4 特征降维方法22-25
  • 2.2.5 文本分类方法25-28
  • 2.3 实验分析28-30
  • 第3章 支持向量机理论概述及方法30-35
  • 3.1 支持向量机基础理论30-32
  • 3.1.1 统计学习理论核心内容30
  • 3.1.2 SVM的基本原理30-32
  • 3.2 支持向量机分类的基本方法32-35
  • 3.2.1 线性可分支持向量机32-33
  • 3.2.2 线性不可分支持向量机33
  • 3.2.3 非线性可分支持向量机33-34
  • 3.2.4 核函数简介及选择34-35
  • 第4章 基于BT-SVM的改进算法35-39
  • 4.1 常用的多类支持向量机分类方法35
  • 4.2 基于二叉树的多类支持向量机算法(BT-SVM)35-37
  • 4.2.1 BT-SVM的基本原理35-36
  • 4.2.2 常见二叉树改进策略36-37
  • 4.3 支持向量机算法改进37-38
  • 4.4 改进算法实验验证38-39
  • 第5章 基于BT-SVM的网络舆情分类系统设计39-54
  • 5.1 分类主题的确立39-41
  • 5.2 系统总体设计41-42
  • 5.2.1 系统的设计目标41
  • 5.2.2 系统的基本功能41
  • 5.2.3 系统架构41-42
  • 5.3 系统模块设计42-47
  • 5.3.1 系统流程42-43
  • 5.3.2 系统各功能模块设计43-47
  • 5.4 网络舆情文本分类系统实现47-54
  • 5.4.1 系统的总体界面47-48
  • 5.4.2 各模块的具体实现48-54
  • 第6章 基于天涯杂谈版的舆情语料分类实验54-66
  • 6.1 天涯杂谈版舆情语料使用原因及简介54
  • 6.2 文本分类评估标准54-56
  • 6.3 实验流程56-59
  • 6.4 实验与结果分析59-66
  • 6.4.1 概率估算方法实验59-60
  • 6.4.2 特征选择方式实验60-62
  • 6.4.3 特征评估函数实验62-63
  • 6.4.4 权重计算实验63-64
  • 6.4.5 支持向量机核函数实验64-66
  • 第7章 总结与展望66-68
  • 7.1 总结66
  • 7.2 后续工作展望66-68
  • 参考文献68-71
  • 在校期间发表的学术论文71-72
  • 致谢72

【参考文献】

中国期刊全文数据库 前1条

1 田卉;柯惠新;;网络环境下的舆论形成模式及调控分析[J];现代传播(中国传媒大学学报);2010年01期


  本文关键词:基于SVM的网络舆情文本分类研究,由笔耕文化传播整理发布。



本文编号:336434

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/336434.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1a02c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com