改进的C4.5算法及其在地质调查项目管理中的应用研究
本文选题:C4.5算法 切入点:决策树 出处:《兰州交通大学》2015年硕士论文 论文类型:学位论文
【摘要】:随着各行业信息化的日益普及,所产生的数据量激增,但是却出现了“数据海量,知识贫乏”的局面。数据挖掘为解决这个问题提供了新的契机。数据挖掘是从大量的、复杂的、随机的数据之中提取有价值信息和知识的过程。在这个过程之中,对数据进行分类是数据挖掘研究领域比较重要的课题。目前用于分类的方法有很多种,比较经典的有决策树算法、遗传算法、关联规则、神经网络、粗糙集方法等。决策树算法因其分类准确率高、容易理解等优点被人们广泛应用。而C4.5算法是决策树算法中最为典型的算法之一,它不仅继承了CLS、ID3等算法的优点,而且对其部分缺陷进行了优化,使其在数据挖掘研究领域被众多研究者所广知。但是C4.5算法也存在某些缺陷。比如在决策树构造的过程中,需要对数据集进行多次的排序和顺序扫描,因而导致算法的低效以及过度分支等问题。鉴于此,本文针对C4.5算法存在的缺陷进行了优化,并以地质调查项目信息管理系统中已有的项目数据为基础,利用改进的C4.5决策树,挖掘出项目投入和项目最终成果之间的关系,为决策者提供了决策依据。本文的主要研究内容包括:(1)CLS算法、ID3算法和C4.5算法的性能分析和比较。通过比较经典算法的特点和优势,为改进C4.5算法提供理论基础;(2)C4.5算法的改进。针对C4.5算法的缺点,提出一种高效的改进C4.5算法;(3)利用改进C4.5算法,在地质调查项目管理可视化系统中进行数据挖掘应用。本文的主要创新点有:(1)提出了一种基于SQL的高效C4.5决策树算法的实现方案,并引入容错率的概念进一步提高了算法的执行效率;(2)利用优化后的C4.5算法对地质调查项目数据进行数据挖掘,并将数据挖掘的结果应用于地质调查项目管理可视化系统之中。本文的研究成果对于决策树算法的研究者和使用者有着重要的参考意义,为地质调查项目的管理者和决策者提供了决策的理论依据。
[Abstract]:With the increasing popularity of information technology in various industries, the amount of data generated has increased sharply, but there has been a situation of "massive data and poor knowledge". Data mining provides a new opportunity to solve this problem. The process of extracting valuable information and knowledge from complex, random data. In this process, data classification is an important topic in the field of data mining. The classical decision tree algorithm, genetic algorithm, association rule, neural network, rough set method and so on. The C4.5 algorithm is one of the most typical algorithms in the decision tree algorithm, which not only inherits the advantages of CLSN ID3 algorithm, but also optimizes some of its defects. It is widely known by many researchers in the field of data mining, but C4.5 algorithm also has some defects. For example, in the process of constructing decision tree, data sets need to be sorted and scanned several times. In view of this, this paper optimizes the C4.5 algorithm and makes use of the improved C4.5 decision tree based on the existing project data in the geological survey project information management system. The relationship between the project input and the final results of the project is excavated, which provides the decision basis for the decision makers. The main research contents of this paper include the performance analysis and comparison of the two algorithms, I. e. In order to provide a theoretical basis for improving C4.5 algorithm, an efficient improved C4.5 algorithm is proposed to improve C4.5 algorithm. Data mining is applied in the visualization system of geological survey project management. The main innovation of this paper is to put forward an implementation scheme of efficient C4.5 decision tree algorithm based on SQL. The concept of fault-tolerant rate is introduced to further improve the efficiency of the algorithm. The optimized C4.5 algorithm is used for data mining of geological survey project data. The results of data mining are applied to the geological survey project management visualization system. The research results in this paper have important reference significance for the researchers and users of decision tree algorithm. It provides a theoretical basis for decision-making for the managers and decision makers of geological survey projects.
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P622;TP311.13
【相似文献】
相关期刊论文 前10条
1 邹汪平;;一种基于网络安全控制的蜂群算法应用研究[J];吉林师范大学学报(自然科学版);2013年04期
2 郭毅可;韩锐;;云计算中的弹性算法:概要和展望[J];上海大学学报(自然科学版);2013年01期
3 刘江华;戴新喜;白似雪;;基于模式矩阵的P_Matrix算法[J];南昌大学学报(理科版);2007年05期
4 胡俊鹏;;基于双向选择的蚁群相遇算法的优化[J];湖北民族学院学报(自然科学版);2013年01期
5 张丽;;关联规则挖掘算法的研究[J];赤峰学院学报(自然科学版);2013年02期
6 吴秋峰;尹海东;孟翔燕;;基于和积和最大积的信念传播算法的收敛性分析[J];数学的实践与认识;2011年09期
7 赵吉东;;蚁群算法的改进策略研究[J];中国科技信息;2012年12期
8 胡森森;周贤善;;一种改进蚁群算法的研究[J];长江大学学报(自科版);2006年10期
9 王恒娜;赵晓静;;基于属性覆盖的关联规则挖掘算法[J];安庆师范学院学报(自然科学版);2007年03期
10 曹建军;刁兴春;李凯齐;邵衍振;;基于进化强度的蚁群算法过程性能评价[J];解放军理工大学学报(自然科学版);2013年01期
相关会议论文 前10条
1 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会——2004年学术年会论文集[C];2004年
2 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年
3 符丽锦;覃华;邓海;孙欣;;一种改进的Apriori算法的研究[A];广西计算机学会2012年学术年会论文集[C];2012年
4 王东锋;王军民;陈英武;;模糊定性仿真理论研究与算法实现[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
5 赵唯;;晶粒度评级的改进算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
6 刘启文;;可扩展的图形学算法演示系统的研究[A];’2004计算机应用技术交流会议论文集[C];2004年
7 佘智;蒋泰;朱延生;;基于Type C协议的防冲突改进算法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
8 朱绍文;赵培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 杨霞;;新的基于启发式蚁群算法的QoS路由算法[A];广西计算机学会2009年年会论文集[C];2009年
10 陈黎飞;姜青山;董槐林;;基于图形轮廓的快速聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
相关博士学位论文 前10条
1 钟永腾;基于近场MUSIC算法的复合材料结构健康监测研究[D];南京航空航天大学;2014年
2 刘燕;入侵杂草优化算法在阵列天线综合中的应用[D];西安电子科技大学;2015年
3 单美静;求解非线性实代数系统的混合算法研究[D];华东师范大学;2008年
4 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年
5 潘磊;若干社区发现算法研究[D];南京大学;2014年
6 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年
7 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
8 范洪博;快速精确字符串匹配算法研究[D];哈尔滨工程大学;2011年
9 寇晓丽;群智能算法及其应用研究[D];西安电子科技大学;2009年
10 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
相关硕士学位论文 前10条
1 安世勇;命题逻辑中随机3-SAT问题算法研究[D];西南交通大学;2015年
2 毕晓庆;油气探矿权竞争性出让系统设计与实现[D];中国地质大学(北京);2015年
3 王明明;铁路大机与线路固定设施间距检测算法研究[D];西南交通大学;2015年
4 李静;基于视频图像序列的运动目标检测与跟踪算法研究[D];宁夏大学;2015年
5 刘贝玲;基于天地图的租房平台开发及其关键技术研究[D];西南交通大学;2015年
6 曹海锋;IDS中串匹配臭算法并行优化研究[D];西安建筑科技大学;2015年
7 周攀;基于蚁群算法的山区高速铁路隧道火灾应急疏散最优路径研究[D];西南交通大学;2015年
8 张路奇;基于改进蚁群算法的WSN路由协议的研究[D];中国地质大学(北京);2015年
9 王晓晨;入侵杂草优化算法的应用与改进[D];长安大学;2015年
10 信琴琴;手势控制和识别算法研究[D];闽南师范大学;2015年
,本文编号:1609225
本文链接:https://www.wllwen.com/guanlilunwen/xiangmuguanli/1609225.html