基于图的半监督情感分类算法研究
发布时间:2017-09-18 07:15
本文关键词:基于图的半监督情感分类算法研究
更多相关文章: 半监督学习 聚类核 图 情感分类 文本表示模型
【摘要】:在互联网快速发展的今天,“大数据”的存储和使用,已经成为信息技术领域急需解决的问题。文本数据作为人类知识的载体,意义非凡,如何运用大量未标记样本来提升文本情感分类的精度,也变得愈发重要。本文主要研究了基于图的半监督情感分类算法,创新工作如下。(1)将半监督学习中重要的聚类核算法应用到情感分类问题中,给出了基于聚类核的半监督情感分类算法。首先在标记样本和未标记样本上,建立加权无向图后,求解聚类核。然后将该核函数用于SVM情感分类器的训练上,完成分类工作。该方法直接将未标记样本所蕴含的信息融合到核中,不需要建立多个分类器。实验表明,该算法在分类精度上明显优于基于Self-learning SVM和Co-training SVM的半监督情感分类算法,且在不同数据集上都有较好的适应性。(2)将聚类核算法同图最小分割法相结合应用到情感分类问题中,建立了基于图聚类核的半监督情感分类算法。首先在所有样本上进行构图,对邻近标记点和未标记点分别给予不同的权重。然后,求解出基于该图的聚类核,将通过聚类核从新表示后的数据带入到图最小分割法中,得到更好的分类效果。该算法更好的满足半监督学习的基本假设,有效利用了未标记样本中蕴含的信息。实验表明,该算法在分类精度上明显优于其他半监督情感分类算法,且不同数据集上都有较好结果。(3)将Graph-of-words文本表示模型引入半监督情感分类问题中,提出了两种基于Graph-of-words的半监督情感分类算法。在文本预处理过程中,使用Graph-of-words模型进行文本向量化,然后将上述模型与前面提出的分类算法想结合,完成情感分类问题。该算法考虑了文本表示方法对于情感分类算法的影响,进一步了提高半监督情感分类算法的分类精度。实验表明,基于Graph-of-words模型的半监督情感分类算法在分类精度上明显优于前面列举出的算法,改进效果明显。
【关键词】:半监督学习 聚类核 图 情感分类 文本表示模型
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O157.5;TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 专用术语注释表8-9
- 第一章 绪论9-18
- 1.1 研究背景及意义9-10
- 1.2 研究现状10-16
- 1.2.1 基于图的半监督算法研究现状10-13
- 1.2.2 半监督情感分类的研究现状13-16
- 1.3 本文研究内容16-17
- 1.4 本文组织结构17-18
- 第二章 基础知识18-28
- 2.1 基于图的半监督算法18-22
- 2.1.1 基于图的半监督学习概述18-20
- 2.1.2 能量函数的定义20
- 2.1.3 基于图的常用半监督分类方法。20-22
- 2.2 文本情感分类研究概述22-27
- 2.2.1 情感分类流程22-25
- 2.2.2 情感分类常用文本表示方法25-26
- 2.2.3 常用情感分类算法26-27
- 2.3 本章小结27-28
- 第三章 基于聚类核的半监督情感分类算法28-37
- 3.1 基于图的半监督情感分类模型28-29
- 3.2 聚类核29-31
- 3.3 基于聚类核的半监督情感分类算法31-33
- 3.4 实验与结果分析33-36
- 3.4.1 数据集选取及预处理34
- 3.4.2 结果分析34-36
- 3.5 本章小结36-37
- 第四章 基于图聚类核的半监督情感分类算法37-44
- 4.1 图的最小分割算法37-38
- 4.2 基于图聚类核的半监督情感分类算法38-41
- 4.3 实验与结果分析41-43
- 4.3.1 数据集选取及预处理41-42
- 4.3.2 结果分析42-43
- 4.4 本章小结43-44
- 第五章 基于Graph-of-words模型的半监督情感分类算法44-54
- 5.1 Graph-of-words文本表示模型44-47
- 5.2 基于Graph-of-words模型的半监督情感分类算法47-49
- 5.3 实验与结果分析49-53
- 5.3.1 数据集选取及预处理50
- 5.3.2 结果分析50-53
- 5.4 本章小结53-54
- 第六章 总结与展望54-56
- 参考文献56-61
- 附录1 程序清单61-62
- 附录2 攻读硕士学位期间撰写的论文62-63
- 附录3 攻读硕士学位期间参加的科研项目63-64
- 致谢64
【相似文献】
中国期刊全文数据库 前10条
1 陈将宏;;基于核方法的分类算法比较研究[J];甘肃联合大学学报(自然科学版);2009年06期
2 谷振亚;彭新光;;基于稀有类分类算法的入侵检测研究[J];科技情报开发与经济;2010年11期
3 徐淑坦;王朝勇;孙延风;;一种不均衡数据的改进蚁群分类算法[J];吉林大学学报(理学版);2011年04期
4 靳燕;;基于权值控制的误分类算法研究[J];山西师范大学学报(自然科学版);2010年02期
5 何文趋;;一种数据库文件外分类算法的复杂性[J];郑州大学学报(自然科学版);1993年02期
6 蔡巍,王永成,李伟,尹中航;三种分类算法的实验比较[J];上海交通大学学报;2004年04期
7 何文趋,,何玉章,曾弛;一种外分类算法[J];郑州大学学报(自然科学版);1994年04期
8 戴雪龙;王永纲;张万生;;并行层压缩树包分类算法[J];中国科学技术大学学报;2006年03期
9 李新国;;IP分组分类算法分析与比较研究[J];邵阳学院学报(自然科学版);2008年01期
10 蔡贺;张睿;;k最近邻域分类算法分析与研究[J];甘肃科技;2012年18期
中国重要会议论文全文数据库 前10条
1 赵波;唐常杰;朱明放;魏大刚;左R
本文编号:874131
本文链接:https://www.wllwen.com/kejilunwen/yysx/874131.html