当前位置:主页 > 论文百科 > 毕业论文 >

基于半监督学习的文本分类研究

发布时间:2016-11-05 07:48

基于半监督学习的文本分类研究


摘要:本文提出了一种基于蚁群聚集信息素浓度的半监督文本分类算法,该算法利用扩展的蚁群信息素扩散模型,提出了基于Top-k 策略的蚂蚁种群标记,通过对未标记蚂蚁置信度的判断随机选择候选蚂蚁进入分类种群。本文通过利用20Newsgroups数据集进行试验测试,EM算法作为对比算法,在查准率、查全率和F-1度的指标上均具有较明显的优势。

关键词:半监督;文本分类;蚁群算法


1 中文文本分类技术


文本分类的重要工作是构建分类函数对文本进行类别划分,其中比较重要的分类算法包括以下几种。

1.1 KNN算法
KNN(K-Nearest Neighbor)算法的核心思想是通过从待分类文本中找到与训练文本集相似的K篇文本的方法对文本进行分类。其主要步骤包括:
第一步:利用训练文本的向量化求解特征项对训练本文集的分词;
第二步:求解待分类文本的特征向量;
第三步:计算待分类文本与训练集的相似度:
其中: 表示待分类文本的特征向量; 表示已分好了类的第 类文本的特征向量; 表示维度; 表示特征向量 的当前维度。
第四步:利用权重对文本向量进行属性化,其权重计算方法为:
其中: 表示待分类文本的特征向量; 表示文本类别的属性函数,计算方法为:

第五步:根据权重最大的类别优先性将待分类的文本进行分类。


2 基于粗糙集理论的文本分类技术流程
3 决策表的属性约简

4 基于蚁群聚集信息素的半监督分类算法


从结果数据中可以看出,本文提出的文本分类算法明显优于EM算法,由于因此进行种族训练时会出现大量置信度较高的蚂蚁,已标记样本的比例逐渐增加使得分类的复杂度降低,分类错误的几率也大大降低。

在本文提出的基于蚁群聚集信息素浓度的半监督文本分类算法中,有一个重要的步骤就是需要对算法中的参数进行人工设置,,并且参数选择的好坏也会影响分类的效果,因此下一步的工作,将是对算法中的参数优化进行研究,以期进一步提高该算法的性能。


参考文献 略



本文编号:164851

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/caipu/164851.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61e75***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com