基于模糊理论的决策树算法的研究及应用
本文选题:数据挖掘 + 决策树 ; 参考:《中国地质大学(北京)》2017年硕士论文
【摘要】:在数据挖掘领域,数据的分类是其研究的核心内容之一,而决策树算法,便是一种简单高效且应用比较普遍的分类算法。该算法的模型简单明朗,易于理解,可复用性强,同时具有较高的分类精度。经典的决策树算法不善于处理数据的模糊性问题,随着模糊理论在机器学习、人工智能等方面的应用,通过将模糊集合理论与决策树算法融合,诞生了模糊决策树算法,比如FuzzyID3、Min-Ambiguity算法等。模糊决策树算法的出现使经典决策树算法的应用得到拓展,对该类算法的发展有着深远的影响,使其能够处理具有不确定性的数据。论文的主要工作包括以下几点:(1)论述决策树以及模糊理论相关的基础概念,总结不同决策树算法分裂属性选取标准的差异,分析不同的决策树剪枝技术。重点比较清晰决策树与模糊决策树在建树过程、数据预处理、算法复杂度、规则匹配方式以及适用范围等方面的差异,总结它们的优缺点。(2)提出了通过K-means算法获取连续属性聚类中心点,并结合三角模糊数对连续数据模糊处理的方式。同时设计完成了基于FuzzyID3和Min-Ambiguity算法的可视化模糊决策系统。结合Weka开源数据挖掘软件中实现的C4.5和CART算法,通过实验分析,比较四种决策树算法在分类正确率和产生的规则数上的不同。实验发现FuzzyID3算法在各个数据集上都有较高的正确率,且规则数较少。CART算法生成的规则数最少,这是因为其二叉树的模型特点和以基尼指数作为分裂属性选取标准的特性。对比FuzzyID3和Min-Ambiguity两种模糊决策树算法,发现前者整体性能优于后者,同时实验分析了真实度对这两种算法的影响。(3)将模糊决策树算法应用到邮件分类中,设计了一种以FuzzyID3算法为核心,基于邮件行为特征的邮件分类模型,提出了一种邮件特征属性选取的方案和相应的模糊处理方案。通过实验验证发现,该模型在对邮件分类时具有较高的召回率和正确率,可以较为高效的识别垃圾邮件。
[Abstract]:In the field of data mining, the classification of data is one of the core contents of its research, and the decision tree algorithm is a simple, efficient and widely used classification algorithm. The model of the algorithm is simple and clear, easy to understand, reusability and high classification accuracy. The classical decision tree algorithm is not good at dealing with the fuzzy problem of data. With the application of fuzzy theory in machine learning and artificial intelligence, the fuzzy decision tree algorithm is born by combining fuzzy set theory with decision tree algorithm. Such as FuzzyID3 Min-Ambiguity algorithm and so on. The emergence of fuzzy decision tree algorithm extends the application of classical decision tree algorithm, and has a profound influence on the development of this kind of algorithm, which enables it to deal with data with uncertainty. The main work of this paper includes the following points: 1) discussing the basic concepts of decision tree and fuzzy theory, summarizing the differences of different decision tree algorithms' splitting attribute selection criteria, and analyzing different pruning techniques of decision tree. The difference between decision tree and fuzzy decision tree in building process, data preprocessing, algorithm complexity, rule matching method and application scope is emphasized. The advantages and disadvantages of these two methods are summarized. (2) A method to obtain the center points of continuous attribute clustering by K-means algorithm is proposed, and the method of fuzzy processing of continuous data is combined with triangular fuzzy number. At the same time, a visual fuzzy decision system based on FuzzyID3 and Min-Ambiguity algorithm is designed. Combined with the C4.5 and CART algorithms implemented in Weka open source data mining software, the differences of the classification accuracy and the number of rules generated by the four decision tree algorithms are compared through experimental analysis. Experimental results show that the FuzzyID3 algorithm has a high accuracy in each data set, and the rule number is less. Cart algorithm generates the least number of rules, which is due to the model characteristics of its binary tree and the characteristic of selecting the split attribute with the Gini index as the criterion. Compared with two fuzzy decision tree algorithms, FuzzyID3 and Min-Ambiguity, it is found that the former has better overall performance than the latter. At the same time, the influence of the degree of truthfulness on the two algorithms is analyzed experimentally. (3) the fuzzy decision tree algorithm is applied to the mail classification. In this paper, a mail classification model based on the FuzzyID3 algorithm is designed, and a scheme to select the mail feature attributes and the corresponding fuzzy processing scheme are proposed. The experimental results show that the model has high recall rate and correct rate in the classification of mail, and it can be used to identify spam more efficiently.
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;O159
【相似文献】
相关期刊论文 前10条
1 王曙燕,耿国华,李丙春;决策树算法在医学图像数据挖掘中的应用[J];西北大学学报(自然科学版);2005年03期
2 冯少荣;;决策树算法的研究与改进[J];厦门大学学报(自然科学版);2007年04期
3 王磊;郑任儿;;决策树算法的比较研究[J];科技信息;2012年30期
4 万川南;柳炳祥;徐星;;决策树算法在手机购买中的应用[J];内江科技;2013年09期
5 崔丽;;基于云平台的决策树算法在医疗领域中的应用[J];科技通报;2013年02期
6 李建军;吴文亮;;基于决策树算法的高校科研管理评估研究[J];科技通报;2014年03期
7 金莹;;一种改进的决策树算法及其在高校学生就业中的应用[J];合肥学院学报(自然科学版);2010年02期
8 吕爽;陈高云;吴晓;王鹏;;基于主从模式的并行决策树算法研究[J];西南民族大学学报(自然科学版);2007年04期
9 迟庆云;;一种动态的决策树算法研究[J];邵阳学院学报(自然科学版);2007年03期
10 徐健锋;刘斓;邱桃荣;刘清;;基于粒计算的二进制矩阵及在决策树算法的应用[J];广西师范大学学报(自然科学版);2008年03期
相关会议论文 前3条
1 韩松来;张辉;周华平;;决策树算法中多值偏向问题的理论分析[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
2 杨林权;吕维先;;基于决策树算法的SimuroSot决策程序设计[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
相关硕士学位论文 前10条
1 王伟;具有降维容噪特性的决策树算法改进[D];郑州大学;2015年
2 薛砚丹;基于决策树算法的高校财务管理与决策分析研究[D];宁夏大学;2015年
3 高帆;基于面向对象决策树算法的土地利用遥感分类初步研究[D];云南师范大学;2015年
4 龙志勇;基于并行化的决策树算法优化及其应用研究[D];浙江大学;2015年
5 张敬轩;决策树算法在违约预测中的应用[D];北京理工大学;2015年
6 李伟;决策树算法应用及并行化研究[D];电子科技大学;2014年
7 张晓伟;银行卡业务分析和数据挖掘系统的设计与实现[D];电子科技大学;2014年
8 刘胜涛;地源热泵优化控制系统设计与研究[D];电子科技大学;2016年
9 李海涛;基于Hadoop的决策树算法改进及林业数据分类预测研究[D];东北林业大学;2016年
10 范志成;航空总线信息提取及优化的研究[D];中国民航大学;2012年
,本文编号:1806866
本文链接:https://www.wllwen.com/kejilunwen/yysx/1806866.html