当前位置:主页 > 科技论文 > 自动化论文 >

基于粗糙集的决策树分类方法研究

发布时间:2017-08-23 17:41

  本文关键词:基于粗糙集的决策树分类方法研究


  更多相关文章: 数据挖掘 属性约简 决策树 分布式并行框架


【摘要】:进入“互联网+”时代,人们从生产、生活中积累的数据呈现爆发式增长,数据已成为重要的战略资源,如何利用海量数据发现新知识已成为数据挖掘领域的研究热点,其中,决策树分类算法以其结构清晰、算法高效的特点被广泛应用。由于数据挖掘中决策树算法在分类效率和准确率上对决策信息的规范性较为敏感,并且随着数据量的几何式增长,常规的串行决策树分类算法已难于突破内存瓶颈和计算能力约束。因此,本文将粗糙集中的属性约简理论与决策树分类算法相结合,降低了决策树的复杂程度并提高了算法效率,取得了良好的理论和应用效果。本文的主要研究内容分为以下几个部分:(1)粗糙集理论方面:从属性约简的候选属性入手,在分析现有属性约简算法的基础上,将相关属性测度加入选择候选属性的过程中。在选择候选属性时,优先选择与核属性相关度最大的属性加入候选约简集,同时剔除非相关属性,通过这种思想达到约简集最小,并保证属性约简集信息量最大化的目的。通过大量对比实验验证,这种算法有效解决了约简集增删候选属性时的盲目性,节省了属性约简过程中的计算开销。(2)决策树分类算法方面:结合基于相关属性的属性约简算法,本文得到了节点冗余度更低的决策树分类结果,并针对现有串行决策树分类算法无法适应大数据环境下数据挖掘需求,及并行决策树分类算法在分布式框架下I/O开销过大的问题,使用一种新的数据结构简化了Map和Reduce过程,得到了新的决策树分裂标准,藉此降低了节点周转次数和I/O开销。通过实验显示,分布式并行决策树算法在保证分类准确率的情况下,得到了较为优异的决策树尺度和运行效率。
【关键词】:数据挖掘 属性约简 决策树 分布式并行框架
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP18
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第1章 绪论9-16
  • 1.1 研究背景和意义9-11
  • 1.2 国内外研究现状11-15
  • 1.2.1 属性约简算法研究现状11-12
  • 1.2.2 决策树分类算法研究现状12-15
  • 1.3 研究内容及论文组织结构15-16
  • 第2章 粗糙集理论、决策树算法与Hadoop平台介绍16-31
  • 2.1 数据挖掘理论相关介绍16-19
  • 2.1.1 数据挖掘的主要方法16-17
  • 2.1.2 数据挖掘流程17-19
  • 2.2 粗糙集理论19-23
  • 2.2.1 粗糙集的引入19-20
  • 2.2.2 基于粗糙集的属性约简方法20-23
  • 2.3 决策树分类理论23-28
  • 2.3.1 决策树基本概念23
  • 2.3.2 常见决策树分类算法介绍23-28
  • 2.4 Hadoop大数据处理框架28-30
  • 2.5 本章小结30-31
  • 第3章 基于粗糙集的属性约简算法31-46
  • 3.1 粗糙集与属性约简31-32
  • 3.2 基于相关属性的属性约简算法32-39
  • 3.2.1 可分辨矩阵33-34
  • 3.2.2 相关属性算法34-39
  • 3.3 实验与分析39-45
  • 3.3.1 实验环境39-41
  • 3.3.2 实验设计41-42
  • 3.3.3 实验结果分析42-45
  • 3.4 本章小结45-46
  • 第4章 分布式并行决策树分类算法46-64
  • 4.1 决策树分类算法46-49
  • 4.2 分布式并行模型49-54
  • 4.3 分布式并行决策树挖掘算法54-60
  • 4.4 实验与分析60-63
  • 4.5 本章小结63-64
  • 第5章 总结与展望64-66
  • 5.1 总结64
  • 5.2 未来展望64-66
  • 参考文献66-70
  • 致谢70

【相似文献】

中国期刊全文数据库 前10条

1 邱兆雷;范颖;王爱云;;粗糙集理论及进展[J];信息技术与信息化;2006年05期

2 徐伟华;张文修;;覆盖广义粗糙集的模糊性[J];模糊系统与数学;2006年06期

3 石杰;;粗糙集理论及其应用研究[J];科技信息;2008年33期

4 唐彬;;粗糙集理论和应用研究[J];内江科技;2008年03期

5 胡军;王国胤;;覆盖粗糙集的模糊度[J];重庆邮电大学学报(自然科学版);2009年04期

6 燕红文;康向平;张丽;;依赖空间与粗糙集理论[J];农业网络信息;2009年09期

7 林国平;;覆盖广义粗糙集与信任函数[J];漳州师范学院学报(自然科学版);2010年02期

8 王石平;祝峰;朱培勇;;基于抽象相关关系的粗糙集研究[J];南京大学学报(自然科学版);2010年05期

9 成新文;陈国超;李琦;;关于粗糙集的理论及应用研究[J];煤炭技术;2010年10期

10 林治;张璇;;粗糙集理论的应用探析[J];邢台职业技术学院学报;2011年03期

中国重要会议论文全文数据库 前10条

1 黎文航;陈善本;王兵;;粗糙集理论在焊接中的应用综述[A];第十一次全国焊接会议论文集(第2册)[C];2005年

2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年

3 邹刚;滕书华;孙即祥;陈森林;敖永红;;一种粗糙集优化协同原型模式约简分类方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

4 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

5 陈雪飞;;粗糙集分类中耦合数据的处理方法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

6 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年

7 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年

8 王红萍;万程亮;金彦丰;;应用粗糙集理论的对抗效果权重确定方法[A];2009’中国西部地区声学学术交流会论文集[C];2009年

9 王莉;周献中;;一种基于粗糙集的模糊神经网络模型在钢材力学性能预测中的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 卓明;王丽珍;谭旭;;基于粗糙集近似集扩展的规则提取算法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国博士学位论文全文数据库 前10条

1 马希骜;概率粗糙集属性约简理论及方法研究[D];西南交通大学;2014年

2 唐孝;基于粗糙集的知识发现方法及其在ECG信号识别中的应用[D];电子科技大学;2015年

3 曾凯;邻域粒化粗糙计算的关键技术研究与应用[D];电子科技大学;2015年

4 鲍忠奎;面向不确定信息系统的粗糙集扩展模型研究[D];合肥工业大学;2015年

5 薛佩军;正负域覆盖广义粗糙集与知识粗传播研究[D];山东大学;2007年

6 孔芝;粗糙集理论若干问题的研究与应用[D];东北大学;2009年

7 秦中广;基于粗糙集的交叉研究及其在中医诊断的应用[D];华南理工大学;2002年

8 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年

9 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年

10 孙英娟;基于粗糙集的分类方法研究[D];吉林大学;2011年

中国硕士学位论文全文数据库 前10条

1 江飞;粗糙集神经网络故障诊断方法研究[D];西安石油大学;2015年

2 何理荣;粗糙集理论在银行信贷风险评估中的应用研究[D];华南理工大学;2015年

3 张德齐;基于粗糙集理论的电机故障诊断方法研究[D];渤海大学;2015年

4 杨礼;基于粗糙集的公路交通安全预警研究[D];西南交通大学;2015年

5 聂萌瑶;基于泛系串并模型的粗糙集概念扩展与拓扑空间[D];兰州大学;2015年

6 徐鹏;基于粗糙集的建筑起重机械安全精细化评价研究[D];西安建筑科技大学;2015年

7 孙宇航;粗糙集属性约简方法在医疗诊断中的应用研究[D];苏州大学;2015年

8 张曼;基于粗糙集和包含度的聚类分类算法研究[D];青岛理工大学;2015年

9 车世远;基于群搜索优化粗糙集的脑科学数据研究[D];大连海事大学;2015年

10 林哲;基于粗糙集的马田系统研究及其在银行直接营销客户分类中的应用[D];南京理工大学;2015年



本文编号:726417

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/726417.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b998***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com