王煜, 导师:王正欧,基于决策树和K最近邻算法的文本分类研究
本文关键词:基于决策树和K最近邻算法的文本分类研究,,由笔耕文化传播整理发布。
首页 > 专家 > 内容
文献名称:基于决策树和K最近邻算法的文本分类研究
前言:文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。 本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。 本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据模糊化的工作量和模糊决策树的规模,减少了分类规则数量。 本文关于KNN算法的改进主要做了三个方面的工作: 欧氏距离中的权重求解问题:提出了...
Text categorization is one of the most important issues of text mining, which is thought as a basic cognitional form. The researches on the methods of feature dimensions reduction, text categorization and text categorization rule extraction have not satisfied the actual applications so far. In this paper, the text feature dimensions reduction and text categorization rule extraction using decision tree are investigated, and some new KNN algorithms are represented for text categorization. In this pap...
文献名称 基于决策树和K最近邻算法的文本分类研究
Article Name
英文(英语)翻译
Study on Text Categorization Based on Decision Tree and K Nearest Neighbors;
作者 王煜; 导师:王正欧;
Author
作者单位
Author Agencies
天津大学;
文献出处
Article From
中国科学院上海冶金研究所; 材料物理与化学(专业) 博士论文 2000年度
关键词 文本分类; 决策树; KNN算法; 模糊逻辑; 粗糙集理论; 神经网络;
Keywords text categorization;decision tree;KNN algorithm;fuzzy logic;rough set theory;neural network;
基于文本分类的本体匹配及其应用研究
文本分类及其相关技术研究
关联文本分类关键技术研究
文本分类和聚类中若干问题的研究
粗糙集理论在中文文本分类中的应用
高性能文本分类算法研究
现代信息检索中的文本分类及图像恢复研究
支持向量机分类方法及其在文本分类中的应用研究
自动文本分类若干基本问题研究
城市休闲产业集群化发展理论与创新研究
本文关键词:基于决策树和K最近邻算法的文本分类研究,由笔耕文化传播整理发布。
本文编号:107694
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/107694.html