当前位置:主页 > 科技论文 > 软件论文 >

基于半监督学习的情感分类方法研究

发布时间:2024-02-21 16:37
  随着互联网技术的迅速发展,越来越多的用户热衷于在网络上对产品、服务、时事等发表评论。如果能自动挖掘出这些主观性文本中蕴含的情感倾向,对个人、企业、政府等有着巨大的应用价值和经济价值。文本情感分类技术正是解决这一问题最有效的工具。半监督学习作为一种普适性的机器学习技术,能够充分利用未标注样本提升分类性能。针对文本情感分类很多场景面临标注语料不足、而标注样本费时费力的情况,本文主要围绕半监督学习情感分类展开研究。本文主要创新点如下:一、本文提出了基于分层抽样随机子空间的协同训练情感分类算法。该算法采用分层抽样的方法构建子空间,改进了将随机特征子空间半监督学习算法直接应用于文本情感分类中可能会存在部分子空间不包含强相关属性的缺点,算法在确保子空间多样性的前提下,有效提升了每个子空间的充分性。实验表明,本文算法的分类效果要优于基于随机特征子空间的半监督学习算法以及其他部分常用的半监督学习算法。二、本文提出了基于多样性与高置信度估计的半监督情感分类算法。该算法结合样本的后验概率和先验分布信息,改善了增量式自训练算法在迭代训练的过程中易引入误标记样本的问题。其次,为了避免引入的样本分布集中会造成数...

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

图2初始标注样本5%时不同半肚$分类方法情启分类性筑比较

图2初始标注样本5%时不同半肚$分类方法情启分类性筑比较

3期高伟等:基于集成学习的半监督情感分类方法研究算法流程参见3.2.1节。(3)LabelPropagation:标签传播算法,具体算法流程参见3.2.2节。(4)我们的方法:对每个子半监督学习算法进行一致性标签融合,选择标注一致的未标注样本更新初始标注样本,即本文重点提出的方法....


图2-1向量空间模型图??文档的向量空间表示的主要任务是为特征向量找到合适的编码

图2-1向量空间模型图??文档的向量空间表示的主要任务是为特征向量找到合适的编码

?.)?=?(&.?:wu,...,g:ww.),其中;表示文档中的特征,w表示特征对应的权重。在??^维向量空间中,用特征项来代表坐标系,特征权重(%,,...,>〇代表??坐标值,因此,文档d可以由《维数值特征向量OpWj,...,w?)表示,如图2-1所??7Jn?〇??,....


图2-2?SVM基本原理图??假设给定训练样本集合T?=?%),(x2,%),...,(%,}^)丨,其中x,+?ef,??

图2-2?SVM基本原理图??假设给定训练样本集合T?=?%),(x2,%),...,(%,}^)丨,其中x,+?ef,??

SVM是一种基于统计学习理论的分类技术,由Cortes和\^口11&[41]于1995??年提出。它的基本思想是试图通过最大化最近邻训练样本与分离超平面的几何间??隔找到最佳分离超平面。可以通过下图2-2对SVM的算法原理有一个基本认识,??图中正方形代表正例样本,圆圈代表负例样....


图3-1初始比例为5%时各半监督情感分类算法效果对比图??-

图3-1初始比例为5%时各半监督情感分类算法效果对比图??-

Stratified?Co-training:本章提出的算法,其算法流程参考算法3-2,同样设置??子空间个数为m=2。??图3-1给出了在三种语料下各种半监督学习算法的性能对比。具体实验时,??初始标注样本的比例为5%,测试数据的比例为20%,剩下的为未标注样本。??〇.8?n....



本文编号:3905693

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3905693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6a78***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com