基于半监督学习的文本分类研究
发布时间:2016-11-05 07:48
基于半监督学习的文本分类研究
关键词:半监督;文本分类;蚁群算法
文本分类的重要工作是构建分类函数对文本进行类别划分,其中比较重要的分类算法包括以下几种。
1.1 KNN算法KNN(K-Nearest Neighbor)算法的核心思想是通过从待分类文本中找到与训练文本集相似的K篇文本的方法对文本进行分类。其主要步骤包括:
第一步:利用训练文本的向量化求解特征项对训练本文集的分词;
第二步:求解待分类文本的特征向量;
第三步:计算待分类文本与训练集的相似度:
其中: 表示待分类文本的特征向量; 表示已分好了类的第 类文本的特征向量; 表示维度; 表示特征向量 的当前维度。
第四步:利用权重对文本向量进行属性化,其权重计算方法为:
其中: 表示待分类文本的特征向量; 表示文本类别的属性函数,计算方法为:
第五步:根据权重最大的类别优先性将待分类的文本进行分类。
3 决策表的属性约简
4 基于蚁群聚集信息素的半监督分类算法
在本文提出的基于蚁群聚集信息素浓度的半监督文本分类算法中,有一个重要的步骤就是需要对算法中的参数进行人工设置,,并且参数选择的好坏也会影响分类的效果,因此下一步的工作,将是对算法中的参数优化进行研究,以期进一步提高该算法的性能。
本文编号:164851
本文链接:https://www.wllwen.com/wenshubaike/caipu/164851.html