基于三支决策的多粒度文本情感分类模型
本文选题:情感分类 + 三支决策 ; 参考:《计算机科学》2017年12期
【摘要】:文本情感分类是一项重要的自然语言处理任务,具有广泛的应用场景。以往的情感分类方法过于注重分类准确率,忽略了训练和分类过程的时间代价,而且使用的特征大多为词袋特征,存在维度高、可解释性差的缺点。针对这些问题,将粒计算的思想运用于文本数据的三层粒度结构(词-句-篇章),提出一种具有强可解释性的文本情感分类特征——SSS(Sentence-level Sentiment Strength)特征,SSS特征每一维度代表文章中每个句子的情感强度值;同时,在分类过程中,利用三支决策方法将待分类对象划分为3个区域,位于正域和负域的对象直接划分至正类和负类中,使用SVM(Support Vector Machine)+SSS特征对位于边界域的对象做进一步分类。实验结果显示,SSS特征由于自身的低维特性,能够大大降低特征提取和模型训练过程所耗费的时间成本,结合了三支决策方法的SVM能够进一步提高分类准确率,而且三支决策方法可以减少分类过程所耗费的时间。
[Abstract]:The text emotion classification is an important natural language processing task , and has a wide application scene . The past emotion classification method focuses on the classification accuracy , ignores the time cost of the training and classification process , and puts forward a three - layer granularity structure ( word - sentence - text ) with strong explanatory character . The result shows that the SSS feature can greatly reduce the time cost consumed in the feature extraction and the model training process . The SVM can further improve the classification accuracy by using the SVM ( Support Vector Machine ) + SSS feature .
【作者单位】: 同济大学计算机科学与技术系;同济大学嵌入式与服务计算教育部重点实验室;同济大学大数据与网络安全研究中心;
【基金】:国家自然科学基金(61273304,61673301) 高等学校博士学科点专项科研基金(20130072130004)资助
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 彭玉兵,吴根秀,张亮;近似决策规则的形成及其应用[J];江西师范大学学报(自然科学版);2005年01期
2 李小霞,陈绵云;决策规则的简化[J];计算机工程与应用;2003年11期
3 刘丽艳,王海涌,郑丽英;基于粗集理论的决策规则约简算法的研究与应用[J];兰州交通大学学报;2004年06期
4 瞿华;;一种基于过程挖掘的业务过程决策规则发现算法[J];计算机应用研究;2012年06期
5 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期
6 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
7 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
8 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
9 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
10 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
8 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 张晓滨;尹英顺;赵培坤;马秀兰;;基于渐进直推支持向量机的半对半多类文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 晏庆华;;支持向量机算法综述[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
6 胡卉芪;空间文本数据的量质融合与推送[D];清华大学;2016年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 唐迁;基于局部感知的决策规则提取及其应用研究[D];电子科技大学;2014年
2 胡凌超;基于增量聚类器的三支聚类集成方法研究[D];重庆邮电大学;2016年
3 吴昊;基于多维度的事件日志决策规则挖掘优化研究[D];武汉科技大学;2016年
4 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
5 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
6 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
7 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
8 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
9 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
10 王s,
本文编号:1972244
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1972244.html