基于余弦相似度和加权剪枝策略的改进C4.5算法研究
本文关键词:基于余弦相似度和加权剪枝策略的改进C4.5算法研究 出处:《青岛科技大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 数据挖掘 C4.5 余弦相似度 阈值 加权剪枝
【摘要】:进入21世纪后,随着数据库技术的快速发展以及存储器等硬件容量的大幅扩升,我们收集数据的能力越来越强。面对出现的大量数据,采用传统的数据挖掘技术难以对这些数据进行有效地分析和处理。研究新的数据挖掘方法,成为当前人们越来越关注的热点问题。C4.5算法是数据挖掘算法中最经典的算法之一,是一种非常重要的数据挖掘算法,其应用十分的广泛。然而传统C4.5算法存在容易产生冗余规则、决策树规模过大、分类速度过慢等问题,针对上述问题,本文提出了一种基于余弦相似度的改进C4.5算法。首先,计算每个属性的信息熵和增益率,如果任意属性的任意两个属性值的信息熵之差在一个很小范围内时,再计算两个属性值的余弦相似度。然后合并相似度在阈值范围内的属性值,重新计算合并后属性的信息增益率,最后依据传统的C4.5算法进行计算。采用冠心病数据对所提出的算法进行实验验证,结果表明所提出的算法能够有效地合并相似属性值,从而缩减了决策树规模和冗余规则、提高了分类速度。尽管上述方法能够达到预期的效果,但在实际应用中,会存在将重要属性丢失的问题,针对该问题提出了一种基于余弦相似度和加权剪枝策略的改进C4.5算法。该算法首先根据已有知识将属性重要度进行排序,再根据属性重要度有选择性进行余弦相似度计算,最后根据属性重要度进行剪枝,得到最终的决策树。实验结果表明了该算法成功地保留了重要的属性,解决了重要属性丢失的问题。
【学位授予单位】:青岛科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【参考文献】
相关期刊论文 前10条
1 刘冲;杨磊;李娜;;ID3分类及其剪枝算法研究[J];软件导刊;2016年12期
2 陈桌;张丽萍;王欢;张久杰;王春晖;;基于改进向量空间模型的克隆群映射方法[J];计算机应用;2016年07期
3 罗凤娥;张成伟;刘安;;基于数据挖掘的航班延误预警管理分析[J];计算机科学;2016年S1期
4 邓兴宇;胡双演;李钊;隋中山;孙登会;;基于SVSM的装备故障案例相似度匹配算法[J];无线电工程;2016年02期
5 阮羚;李成华;宿磊;谢齐家;吴玉佳;张新访;;基于奇异值分解的局部放电模式识别方法[J];电工技术学报;2015年18期
6 施静静;张鹏;阮雅端;陈启美;;多媒体信息网络相似度计算方法研究[J];南京大学学报(自然科学);2015年02期
7 彭昱忠;王谦;元昌安;林开平;;数据挖掘技术在气象预报研究中的应用[J];干旱气象;2015年01期
8 冉进军;姜媛;刘巧兰;韩乐飞;齐鸿超;;冠心病危险因素的Meta分析[J];西部医学;2014年12期
9 陈大力;沈岩涛;谢槟竹;马颖异;;基于余弦相似度模型的最佳教练遴选算法[J];东北大学学报(自然科学版);2014年12期
10 王雪松;潘杰;程玉虎;曹戈;;基于相似度衡量的决策树自适应迁移[J];自动化学报;2013年12期
相关博士学位论文 前3条
1 郭春;基于数据挖掘的网络入侵检测关键技术研究[D];北京邮电大学;2014年
2 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年
3 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
相关硕士学位论文 前10条
1 邱磊;基于决策树C4.5算法剪枝策略的改进研究[D];华中师范大学;2016年
2 何佩佩;云环境下数据挖掘算法的研究与设计[D];东华大学;2016年
3 尹哲;基于粗糙集的决策树分类方法研究[D];大连海事大学;2016年
4 孔玉婷;数据挖掘中分类算法研究及应用[D];辽宁科技大学;2015年
5 杜春蕾;基于决策树算法的研究及其在煤层底板突水中的应用[D];太原理工大学;2015年
6 郭忠俊;基于数据挖掘技术的矿井提升机故障诊断研究[D];中国矿业大学;2015年
7 严春梅;向量空间模型与语义理解相结合的论文相似度算法研究[D];西南交通大学;2015年
8 李迎春;数据挖掘中决策树分类算法的研究[D];湖南师范大学;2015年
9 张金鹏;基于语义的文本相似度算法研究及应用[D];重庆理工大学;2014年
10 刘晓宇;C4.5算法的一种改进及其应用[D];中国海洋大学;2013年
,本文编号:1325604
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1325604.html