当前位置:主页 > 科技论文 > 自动化论文 >

基于改进的Boosting的跨语言情感分类方法研究

发布时间:2021-08-28 04:59
  情感分类旨在利用计算机技术充分挖掘和判断文本发布者的情感态度,为决策者提供有价值的参考信息。但相关技术高度依赖训练语料的质量和数量,而国内外有效的高质量分析语料、情感词典资源等分布不均的现状使得跨语言情感分类研究应运而生。研究者们对跨语言情感分类技术做了很多努力,但仍存在如下问题:实现语言映射时忽略了词语对所在语境和所属领域的依赖性;主题迁移和翻译错误可能会导致数据分布存在差异;将源语言实例全部应用于训练分类器,这些源实例可能会不同于目标语言的分布。针对上述现有研究存在的问题,本文的研究工作主要包括以下内容:1)将迁移学习技术与Boosting算法相结合,提出ClAdaBoost算法并应用于跨语言情感分类研究中。首先在由源语言和目标语言组成的联合训练集上训练获得初始弱分类器,然后根据在目标语言训练集上计算的错误率对样本权重进行更新,重新训练获得新的弱分类器,如此迭代,最后将多个弱分类器按照一定的规则相结合,从而构造了一个对目标语言友好的强分类器。2)在上述改进算法的基础上提出ClKAdaBoost算法,通过引入K近邻算法对源语言训练实例进行筛选。由于在上述改进的Boosting算法(C... 

【文章来源】:河北工业大学天津市 211工程院校

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

基于改进的Boosting的跨语言情感分类方法研究


基于机器学习方法的情感分类过程

支持向量,超平面,分类器


基于改进的Boosting的跨语言情感分类方法研究12分类算法当然是情感分类问题中最为关键的内容,常用的有支持向量机、朴素贝叶斯分类器、最大熵分类器、K近邻分类器、决策树分类器等,下面介绍在情感分类中主要使用的分类器。支持向量机(SupportVectorMachine)主要应用于二元模式分类问题,可以对线性和非线性任务进行分类。对线性分类问题,通过寻求最优超平面来解决,如图2.2所示。图2.2最优分离超平面与支持向量图2.2中,方形点和圆形点代表两类样本,H为分类线,H1、H2分别为过各类中离分类线最近的样本且平行于分类线的直线,H1、H2上的点(xi,yi)称为支持向量,它们之间的距离叫做分类间隔(margin)。支持向量与红线分类超平面的间隔距离为1w。对非线性分类任务,一般使用核函数将其转换为线性任务来解决。最初利用非线性映射将原来的低维输入空间映射到一个高维特征空间,接着寻求最优超平面。这里的核函数相当于映射模型。SVM对文本二分类有较好的分类效果,性能也较稳定,分隔面模式很好地消除了特征繁复、过拟合等成分的影响。但收敛速度较慢,因此必定占用大量的存储空间和消耗较高的计算成本,导致在大数据集上的应用较少。

过程图,决策树,过程,文本


基于改进的Boosting的跨语言情感分类方法研究14图2.3决策树分类过程KNN分类器将在第四章详细介绍。6)分类性能评估性能评估是为了评估分类器的性能。常用的评估标准有查准率(Precision)、査全率(Recall)、F-Measure、Roc曲线等。下表反映了在二分类问题中某一文本关于实际类别与分类器预测类别的关系,如表2.1所示。表2.1文本实际与预测类别表实际属于类的文本数实际不属于类的文本数分类器判别为的文本数ab分类器判别不为的文本数cd查准率p是指在所有被预测为类别ic的文本中,真正为类别ic的文本数量。其计算公式如下:apab(2.14)查全率r是指在真正类别为ic的全部文本数中,被预测为ic的文本数。其计算公式如下:arac(2.15)由公式(2.14)和(2.15)可以看出,查准率和查全率不同,分别表示分类器的准确度和完备度。当然希望训练出来的分类器能够既准确又完备,但是实验证明,两者之间


本文编号:3367844

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3367844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c1ee5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com