基于训练集裁剪的加权K近邻文本分类算法
发布时间:2017-12-21 15:32
本文关键词:基于训练集裁剪的加权K近邻文本分类算法 出处:《情报工程》2016年06期 论文类型:期刊论文
更多相关文章: 文本分类 特征选择 信息增益 最近邻分类算法
【摘要】:文本分类是信息检索领域的重要应用之一,由于采用统一特征向量形式表示所有文档,导致针对每个文档的特征向量具有高维性和稀疏性,从而影响文档分类的性能和精度。为有效提升文本特征选择的准确度,本文首先提出基于信息增益的特征选择函数改进方法,提高特征选择的精度。KNN(KNearest Neighbor)算法是文本分类中广泛应用的算法,本文针对经典KNN计算量大、类别标定函数精度不高的问题,提出基于训练集裁剪的加权KNN算法。该算法通过对训练集进行裁剪提升了分类算法的计算效率,通过模糊集的隶属度函数提升分类算法的准确性。在公开数据上的实验结果及实验分析证明了算法的有效性。
【作者单位】: 北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心;
【基金】:国家973课题(2013CB329605)的资助
【分类号】:TP391.1
【正文快照】: 1.引言文本分类是处理和组织大规模文本数据的关键技术,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别,广泛应用于搜索引擎、快速资料分检、自动文摘、信息资料推送和信息过滤等领域。目前关于文本分类算法的研究很多,主要有基于规则的决策树方法、基于连
【相似文献】
中国期刊全文数据库 前10条
1 郑智捷;幻序合并分类算法[J];计算机学报;1984年05期
2 刘t,
本文编号:1316234
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1316234.html