针对文本情感分类的特征生成方法研究
本文关键词:针对文本情感分类的特征生成方法研究,,由笔耕文化传播整理发布。
【摘要】:文本情感分类(Text Sentiment Classification)是文本挖掘的一个重要内容,其目的在于检测文本中蕴含的来自作者的主观情感。随着互联网的飞速发展,用户可以在不同的社交平台上自由发表自己的观点。大量收集这些观点并对其进行文本情感分类,将可以在商业、政治、医学等领域发挥巨大的作用。在传统的文本情感分类问题中,庞大的特征总数和稀疏的特征分布往往会给分类算法带来困难。因此,如何采用高效的特征选择(Feature Selection)方法生成合适的特征子集,以降低分类器的时间开销并提高分类准确率,是文本情感分类问题中重要的问题。此外,文本的情感倾向往往与词语中蕴含的语义信息相关,如果我们能获取文本中的词语在语义层面上的信息,文本情感分类的结果将会得到进一步提升。本文主要关注文本情感分类领域的特征生成问题,针对如何生成合适的特征子集、如何从特征中获取更丰富的语义信息以及如何提高文本情感分类准确率等方面进行研究。首先,我们提出一种改进后的基于粒子群优化算法(Particle Swarm Opti-mization)的特征选择方法。和传统的基于粒子群优化算法的特征选择方法相比,本文提出的方法改进了速度更新公式,使其更符合特征选择领域的特点。此外,改进后的方法还结合了封装器和过滤器两种常见的特征选择思想,并考虑了特征本身的语义信息,因而更适合文本情感分类领域的特征选择。我们在多个UCI标准数据集和文本数据集上进行了实验,结果表明我们提出的方法可以在普通的特征选择问题和文本情感分类领域的特征选择问题上均取得更好的效果。接着,我们设计两种不同的方法从文本数据集中自动生成带有情感信息的词组,以构成情感词典(Sentiment Lexicon)并用于文本情感分类。和普通的情感词典相比,我们生成的情感词典更多关注与数据集所属的话题领域相关的知识,因此也被叫做领域相关(Domain-specific)的情感词典。我们在多个文本数据集上进行了实验,结果表明领域相关的情感词典可以在对应的话题领域上取得比普通情感词典更好的分类效果。此外,我们还将监督学习思想与基于情感词典的文本情感分类方法相结合,并进一步提高了情感分类的准确率。最后,当前文本情感分类的目标往往是将整篇文档划分至某一个情感类别中。而如果文档本身针对事物不同的属性发表了不同的评论,基于整篇文档的分类就会显得不够细致。在这种情况下,基于属性(Aspect-level)的文本情感分类的重要性渐渐凸显了出来。基于属性的文本情感分类会首先识别文档一共提及了事物的哪些方面属性,然后再分别对这些方面属性进行情感分类,因而比针对整篇文档的情感分类更加合理。本文最后以领域相关的情感词典为基础,提出了两种属性标注方法,给词典中的词组标注其所属属性。之后,我们提出一种利用改进后的情感词典对数据集进行基于属性的情感分类的方法。实验表明我们提出的方法可以较为准确地提取出文本中所包含的属性信息。
【关键词】:文本情感分类 特征选择 粒子群优化算法 情感词典 基于属性的文本情感分类
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-6
- Abstract6-13
- 第一章 绪论13-18
- 1.1 研究背景13
- 1.2 研究现状13-15
- 1.3 本文工作15-16
- 1.4 本文组织16-18
- 第二章 相关工作18-23
- 2.1 文本情感分类与特征选择18-20
- 2.2 基于情感词典的文本情感分类20-23
- 第三章 基于粒子群优化算法的文本情感特征选择方法23-43
- 3.1 引言23-24
- 3.2 粒子群优化算法及其在特征选择中的应用24-27
- 3.2.1 粒子群优化算法简介24-25
- 3.2.2 基于二进制粒子群优化算法的特征选择25-27
- 3.3 基于改进BPSO的面向文本情感分类的特征选择27-34
- 3.3.1 传统BPSO方法的缺陷27-28
- 3.3.2 利用适应度比例选择改进BPSO28-30
- 3.3.3 F-BPSO在文本情感特征选择领域的改进30-34
- 3.4 实验和分析34-41
- 3.4.1 实验准备35-37
- 3.4.2 实验结果和分析37-41
- 3.5 本章总结41-43
- 第四章 基于情感特征自动提取的文本情感分类方法43-61
- 4.1 引言43-44
- 4.2 领域相关的情感特征提取和极性标注44-52
- 4.2.1 候选词组生成方法45-46
- 4.2.2 情感极性标注方法46-52
- 4.3 结合情感词典和监督学习的文本情感分类方法52-55
- 4.4 实验和分析55-60
- 4.4.1 D-SPL方法的参数调整56-57
- 4.4.2 实验结果和分析57-60
- 4.5 本章总结60-61
- 第五章 基于属性的文本情感分类与评分方法61-74
- 5.1 引言61-62
- 5.2 基于属性的文本情感分类简介62-63
- 5.3 一种基于属性的文本情感分类与评分方法63-69
- 5.3.1 情感词典生成64-67
- 5.3.2 情感分类和综合评分67-69
- 5.4 实验和分析69-72
- 5.4.1 实验准备69
- 5.4.2 实验结果和分析69-72
- 5.5 本章总结72-74
- 第六章 总结与展望74-76
- 6.1 作总结74
- 6.2 研究展望74-76
- 参考文献76-82
- 简历与科研成果82-83
- 致谢83-84
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
3 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
4 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
5 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
6 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
9 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
3 杨名阳;基于空间文本数据的k近邻连接研究[D];上海交通大学;2015年
4 李天彩;短文本信息流的会话抽取与分析技术研究[D];解放军信息工程大学;2015年
5 陈亮宇;面向微博文本的事件抽取[D];东南大学;2015年
6 许慧芳;基于全覆盖粒计算模型的文本表示和特征提取研究[D];太原理工大学;2016年
7 王炜;面向网络舆情的文本语义倾向性分类算法研究[D];河北工程大学;2016年
8 任倚天;基于支持向量机的海量文本分类并行化技术研究[D];北京理工大学;2016年
9 光顺利;基于Spark的文本分类的研究[D];长春工业大学;2016年
10 张高祥;基于SVM的文本信息过滤算法研究[D];吉林大学;2016年
本文关键词:针对文本情感分类的特征生成方法研究,由笔耕文化传播整理发布。
本文编号:376493
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/376493.html