基于聚类改进的KNN文本分类算法
本文关键词:基于聚类改进的KNN文本分类算法
【摘要】:传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。
【作者单位】: 中南大学软件学院;
【关键词】: 文本分类 KNN 聚类化 训练集
【分类号】:TP391.1
【正文快照】: 0引言互联网的飞速发展,每天来自商业、社会、科学界和工程界、医疗以及日常生活的方方面面的大量数据注入到计算机网络、互联网和各种数据存储设备中。要从大量的数据中获取人们需要的知识,就迫切要求采用某种数据挖掘的方法将海量的、无序的、离散的数据进行分类。数据分类
【相似文献】
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1063211
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1063211.html