当前位置:主页 > 管理论文 > 领导决策论文 >

基于遗传算法的知识发现算法研究及应用

发布时间:2017-06-30 19:04

  本文关键词:基于遗传算法的知识发现算法研究及应用,由笔耕文化传播整理发布。


【摘要】:随着数据在日常决策中的重要性越来越显著,人们对数据处理技术的要求也不断提高,需要对数据进行更深层次的处理,以得到关于数据的总体特征以及对发展趋势的预测。然而数据量爆炸性的增长使得现有的知识发现算法存在着一定的局限性,因此必须对现有的算法进行改进或创建新的算法以适应时代之需。 遗传算法是模拟自然进化的通用全局搜索算法,它具有简单、通用、鲁棒性强和适于并行处理的特点,为其他科学技术无法解决或难以解决的复杂问题提供了新的计算模型。而今,交易数据库在不断地增大,花费在扫描整个数据库的时间会越来越长,效率的低下促使我们必须寻找新的关联规则挖掘算法。因此,本文提出了ARM-GA算法,并针对矿山事故数据库进行了简单的计算和分析,取得了很好的效果。 大家普遍认可:在数据挖掘技术中,决策树是在数据集上发现有价值模式的最高效的方法之一。然而,当需要在大规模数据集上进行规则挖掘时,可比例缩放性和准确率问题却无时不困扰着决策树算法,使它力不从心。为了在有限的计算能力内构建出高质量的决策树、挖掘出实用的规则,本文提出了DT_GA(Decision Tree on geneticalgorithm)算法,它是将随机采样技术、遗传算法和标准的决策树算法集成在一起而生成的。该算法是使传统决策树算法的质量得到提高的一种有力方法。 本文分别对交叉和变异算子给出了新的定义,并取决策树在测试集上的分类准确度作为种群中各树个体的适应值。通过在矿山数据集上进行试验研究,主要对平均计算时间和分类准确度这两个指标进行了考察和分析,发现DT_GA算法:即使在较低的采样水平上也能获得标准决策树算法一样的分类准确度;无论初始种群质量如何,该算法都能产生高准确度的决策规则,且结果具有一致性;该算法具有很好的比例缩放性,对大型数据集的挖掘很有效。为更加适应实际的需求,本文还提出了DT_GA算法可做的改进,并给出了改造后的CAMM算法的大致描述。
【关键词】:知识发现 遗传算法 关联规则 决策树 采样技术
【学位授予单位】:西安建筑科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:C934
【目录】:
  • 1 绪论8-15
  • 1.1 课题研究的目的和意义8
  • 1.2 国内外研究的现状及水平8-13
  • 1.3 本文研究的主要内容13-15
  • 2 知识发现的概述15-20
  • 2.1 KDD的产生背景15
  • 2.2 KDD的基本概念15-16
  • 2.3 KDD的过程16-17
  • 2.4 KDD的应用17
  • 2.5 数据挖掘技术简介17-20
  • 3 遗传算法20-28
  • 3.1 遗传算法的简介20-23
  • 3.1.1 遗传算法的产生与发展20-21
  • 3.1.2 遗传算法的基本思想21
  • 3.1.3 遗传算法的基本特点21-22
  • 3.1.4 遗传算法的基础理论22-23
  • 3.2 基本遗传算法23-24
  • 3.2.1 基本遗传算法的构成要素23-24
  • 3.2.2 基本遗传算法的流程图24
  • 3.3 遗传算法的实施技术24-27
  • 3.4 本章小结27-28
  • 4 ARM-GA算法28-38
  • 4.1 关联规则28-30
  • 4.1.1 关联规则的基本概念28-29
  • 4.1.2 关联规则的挖掘29
  • 4.1.3 现有的关联规则算法29-30
  • 4.2 ARM-GA算法的分析与构造30-33
  • 4.2.1 染色体编码的设计30-31
  • 4.2.2 适应度函数的构造31
  • 4.2.3 遗传操作的设计31-32
  • 4.2.4 规则过滤算子的引入32
  • 4.2.5 ARM-GA算法描述和流程图32-33
  • 4.3 算法在矿山事故分析中的应用33-37
  • 4.4 本章小结37-38
  • 5 DT_GA算法38-64
  • 5.1 决策树38-43
  • 5.1.1 决策树技术简介38-39
  • 5.1.2 决策树算法概述39-42
  • 5.1.3 现有决策树算法的瓶颈42
  • 5.1.4 决策树方法的发展趋势42-43
  • 5.2 DT_GA算法的分析与构造43-49
  • 5.2.1 DT_GA算法的分析43-44
  • 5.2.2 DT_GA算法的构造44-49
  • 5.3 算法描述49-51
  • 5.4 DT_GA算法在矿山事故分析中的应用51-55
  • 5.4.1 参数设置51
  • 5.4.2 试验设置51-53
  • 5.4.3 试验结果与分析53-55
  • 5.5 DT_GA算法的补充说明55-62
  • 5.5.1 自适应的控制参数55-56
  • 5.5.2 改造的 CAMM算法56-58
  • 5.5.3 树与粗糙集结合58-62
  • 5.6 本章小结62-64
  • 6 结论与展望64-67
  • 6.1 本文的创新性工作64-65
  • 6.2 本文的主要结论65-66
  • 6.3 尚待进一步研究的问题和展望66-67
  • 致谢67-68
  • 参考文献68-71
  • 附录I:攻读硕士期间所发表的学术论文71

【参考文献】

中国期刊全文数据库 前10条

1 熊军,高敦堂,都思丹,沈庆宏;变异率和种群数目自适应的遗传算法[J];东南大学学报(自然科学版);2004年04期

2 陶志,许宝栋,汪定伟,李冉;基于遗传算法的粗糙集知识约简方法[J];系统工程;2003年04期

3 程岩,黄梯云;粗糙集中定量关联规则的发现及其规则约简的方法研究[J];管理工程学报;2001年03期

4 寇育敬,王春花,黄厚宽;约束关联规则的增量式维护算法[J];计算机研究与发展;2001年08期

5 杜孝平,马秀莉,唐世渭,牧之内 显文;快速关联规则挖掘算法[J];计算机工程与应用;2002年11期

6 李玉榕,乔斌;一种集成遗传算法与模糊推理的粗糙集数据分析算法[J];计算机工程与应用;2002年18期

7 郭景峰,米浦波,刘国华;决策树算法的并行性研究[J];计算机工程;2002年08期

8 谷文祥,殷明浩;数据挖掘中决策树加权模糊熵算法[J];计算技术与自动化;2002年03期

9 吴艳艳;粗集结合决策树的一种数据挖掘算法[J];计算机工程与科学;2004年02期

10 程继华,施鹏飞;多层次关联规则的有效挖掘算法[J];软件学报;1998年12期


  本文关键词:基于遗传算法的知识发现算法研究及应用,由笔耕文化传播整理发布。



本文编号:503084

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/503084.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24ff8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com